Thèse soutenue

Sélection stable de variables pour les études d'association génome entier

FR  |  
EN
Auteur / Autrice : Asma Nouira
Direction : Chloé-Agathe Azencott
Type : Thèse de doctorat
Discipline(s) : Bio-informatique
Date : Soutenance le 13/07/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de bio-informatique (Fontainebleau, Seine et Marne)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Christophe Ambroise
Examinateurs / Examinatrices : Chloé-Agathe Azencott, Marylyn Ritchie
Rapporteurs / Rapporteuses : Nataliya Sokolovska, Joseph Salmon

Résumé

FR  |  
EN

Les études d’association pangénomiques, ou les GWAS ont pour objectif de détecter des polymorphismes nucléotidiques (SNPs) associés à un phénotype d’intérêt. Parmi ses défis, le problème de la grande dimensionnalité des données qui se manifeste par le faible nombre d’échantillons disponibles. D’autres facteurs limitants incluent notamment la corrélation entre les SNPs, à cause du déséquilibre de liaison (LD), la structure de la population, c’est-à-dire, la confusion due à l’ascendance génétique et la faible puissance statistique en détectant un nombre limité de SNPs significatifs. Les modèles d’apprentissage automatique basés sur l’analyse multivariée contribue à avancer la recherche en GWAS. Par conséquent, les modèles de sélection de variables réduisent la dimensionnalité des données en ne conservant que les variables pertinentes. Cependant, ces méthodes manquent de la stabilité, c’est-à-dire de la robustesse suite à des légères variations dans le jeu de données d’entrée, ce qui peut conduire à une fausse interprétation biologique. Par conséquent, nous nous concentrons dans cette thèse sur l’évaluation et l’amélioration de la stabilité de sélection comme il s’agit d’un indicateur important pour avoir de la confiance aux SNPs découverts. Dans cette thèse, nous développons deux nouvelles méthodes efficaces (multitask group lasso et sparse multitask group lasso) basées sur l’analyse multivariée de Lasso sur des données multi-populations. Chaque tâche correspond à une sous-population des données et chaque groupe à un LD-groupe. Cette formulation atténue le problème de fléau de la dimension et permet d’identifier des LD-groupes pertinents partagés entre les populations/tâches, ainsi que certains LD-groupes qui sont spécifiques à une population/tâche. De plus, nous utilisons la sélection de stabilité pour augmenter la robustesse de nos approches. Enfin, les règles "Gap Safe Screening Rules" accélèrent les calculs en permettant à nos méthodes de fonctionner à l’échelle génomique. En analysant plusieurs données, dont un ensemble de données sur le cancer du sein, l’efficacité des modèles développés a été démontrée dans la découverte de nouveaux gènes à risque liés à la maladie.