Apprentissage statistique pour les études d'association et d'interactions entre données omiques fondée sur une approche de compression structurée
Auteur / Autrice : | Florent Guinot |
Direction : | Christophe Ambroise |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de la vie et de la santé |
Date : | Soutenance le 04/12/2018 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne) |
établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....) | |
Jury : | Président / Présidente : Florence Jaffrézic |
Examinateurs / Examinatrices : Laurent Jacob, Vincent Ségura, Marie Szafranski, Nathalie Jourdan | |
Rapporteur / Rapporteuse : Avner Bar-Hen, Grégory Nuel |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Depuis la dernière décennie le développement rapide des technologies de génotypage a profondément modifié la façon dont les gènes impliqués dans les troubles mendéliens et les maladies complexes sont cartographiés, passant d'approches gènes candidats aux études d'associations pan-génomique, ou Genome-Wide Association Studies (GWASs). Ces études visent à identifier, au sein d'échantillons d'individus non apparentés, des marqueurs génétiques impliqués dans l'expression de maladies complexes. Ces études exploitent le fait qu'il est plus facile d'établir, à partir de la population générale, de grandes cohortes de personnes affectées par une maladie et partageant un facteur de risque génétique qu'au sein d'échantillons apparentés issus d'une même famille, comme c'est le cas dans les études familiales traditionnelles.D'un point de vue statistique, l'approche standard est basée sur le test d'hypothèse: dans un échantillon d'individus non apparentés, des individus malades sont testés contre des individus sains à un ou plusieurs marqueurs. Cependant, à cause de la grande dimension des données, ces procédures de tests classiques sont souvent sujettes à des faux positifs, à savoir des marqueurs faussement identifiés comme étant significatifs. Une solution consiste à appliquer une correction sur les p-valeurs obtenues afin de diminuer le seuil de significativité, augmentant en contrepartie le risque de manquer des associations n’ayant qu'un faible effet sur le phénotype.De plus, bien que cette approche ait réussi à identifier des marqueurs génétiques associés à des maladies multi-factorielles complexes (maladie de Crohn, diabète I et II, maladie coronarienne,…), seule une faible proportion des variations phénotypiques attendues des études familiales classiques a été expliquée. Cette héritabilité manquante peut avoir de multiples causes parmi les suivantes: fortes corrélations entre les variables génétiques, structure de la population, épistasie (interactions entre gènes), maladie associée aux variants rares,...Les principaux objectifs de cette thèse sont de développer de nouvelles méthodes statistiques pouvant répondre à certaines des limitations mentionnées ci-dessus. Plus précisément, nous avons développé deux nouvelles approches: la première exploite la structure de corrélation entre les marqueurs génétiques afin d'améliorer la puissance de détection dans le cadre des tests d'hypothèses tandis que la seconde est adaptée à la détection d'interactions statistiques entre groupes de marqueurs méta-génomiques et génétiques permettant une meilleure compréhension de la relation complexe entre environnement et génome sur l'expression d'un caractère.