Sélection stable de variables pour les études d'association génome entier
Auteur / Autrice : | Asma Nouira |
Direction : | Chloé-Agathe Azencott |
Type : | Thèse de doctorat |
Discipline(s) : | Bio-informatique |
Date : | Soutenance le 13/07/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris) |
Partenaire(s) de recherche : | Laboratoire : Centre de bio-informatique (Fontainebleau, Seine et Marne) |
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....) | |
Jury : | Président / Présidente : Christophe Ambroise |
Examinateurs / Examinatrices : Chloé-Agathe Azencott, Marylyn Ritchie | |
Rapporteur / Rapporteuse : Nataliya Sokolovska, Joseph Salmon |
Mots clés
Résumé
Les études d’association pangénomiques, ou les GWAS ont pour objectif de détecter des polymorphismes nucléotidiques (SNPs) associés à un phénotype d’intérêt. Parmi ses défis, le problème de la grande dimensionnalité des données qui se manifeste par le faible nombre d’échantillons disponibles. D’autres facteurs limitants incluent notamment la corrélation entre les SNPs, à cause du déséquilibre de liaison (LD), la structure de la population, c’est-à-dire, la confusion due à l’ascendance génétique et la faible puissance statistique en détectant un nombre limité de SNPs significatifs. Les modèles d’apprentissage automatique basés sur l’analyse multivariée contribue à avancer la recherche en GWAS. Par conséquent, les modèles de sélection de variables réduisent la dimensionnalité des données en ne conservant que les variables pertinentes. Cependant, ces méthodes manquent de la stabilité, c’est-à-dire de la robustesse suite à des légères variations dans le jeu de données d’entrée, ce qui peut conduire à une fausse interprétation biologique. Par conséquent, nous nous concentrons dans cette thèse sur l’évaluation et l’amélioration de la stabilité de sélection comme il s’agit d’un indicateur important pour avoir de la confiance aux SNPs découverts. Dans cette thèse, nous développons deux nouvelles méthodes efficaces (multitask group lasso et sparse multitask group lasso) basées sur l’analyse multivariée de Lasso sur des données multi-populations. Chaque tâche correspond à une sous-population des données et chaque groupe à un LD-groupe. Cette formulation atténue le problème de fléau de la dimension et permet d’identifier des LD-groupes pertinents partagés entre les populations/tâches, ainsi que certains LD-groupes qui sont spécifiques à une population/tâche. De plus, nous utilisons la sélection de stabilité pour augmenter la robustesse de nos approches. Enfin, les règles ''Gap Safe Screening Rules'' accélèrent les calculs en permettant à nos méthodes de fonctionner à l’échelle génomique. En analysant plusieurs données, dont un ensemble de données sur le cancer du sein, l’efficacité des modèles développés a été démontrée dans la découverte de nouveaux gènes à risque liés à la maladie.