Approches statistiques pour la détection d’épistasie dans les études d’associations pangénomiques
Auteur / Autrice : | Virginie Stanislas |
Direction : | Christophe Ambroise, Cyril Dalmasso |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de la vie et de la santé |
Date : | Soutenance le 18/12/2017 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne) |
établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....) | |
Jury : | Président / Présidente : Marie-Laure Martin-Magniette |
Examinateurs / Examinatrices : Jean-Pierre Hugot | |
Rapporteurs / Rapporteuses : Mathieu Emily, Nathalie Villa-Vialaneix |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
De nombreux travaux de recherche portent sur la détection et l’étude des interactions dans les études d’association pangénomique (GWAS). La plupart des méthodes proposées se concentrent principalement sur les interactions entre polymorphismes simples de l’ADN (SNPs), mais des stratégies de regroupement peuvent également être envisagées.Dans cette thèse, nous développons une approche originale pour la détection des interactions à l’échelle des gènes. De nouvelles variables représentant les interactions entre deux gènes sont définies à l’aide de méthodes de réduction de dimension. Ainsi, toutes les informations apportées par les marqueurs génétiques sont résumées au niveau du gène. Ces nouvelles variables d’interaction sont ensuite introduites dans un modèle de régression. La sélection des effets significatifs est réalisée à l’aide d’une méthode de régression pénalisée basée sur le Group LASSO avec contrôle du taux de fausse découvertes.Nous comparons les différentes méthodes de modélisation des variables d’interaction à travers des études de simulations afin de montrer les bonnes performances de notre approche. Enfin, nous illustrons son utilisation pratique pour identifier des interactions entre gènes en analysant deux jeux de données réelles.