Méthodes statistiques pour la prise en compte de différentes sources de biais dans les études d'association à grande échelle
Auteur / Autrice : | Matthieu Bouaziz |
Direction : | Christophe Ambroise, Mickaël Guedj |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 22/11/2012 |
Etablissement(s) : | Evry-Val d'Essonne |
Ecole(s) doctorale(s) : | Ecole doctorale des Génomes aux organismes (Versailles ; 2000-2015) |
Jury : | Examinateurs / Examinatrices : Jean-François Zagury, David-Alexandre Trégouët |
Rapporteurs / Rapporteuses : David Balding, Emmanuelle Génin |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les études d'association à grande échelle sont devenus un outil très performant pour détecter les variants génétiques associés aux maladies. Ce manuscrit de doctorat s'intéresse à plusieurs des aspects clés des nouvelles problématiques informatiques et statistiques qui ont émergé grâce à de telles recherches. Les résultats des études d'association à grande échelle sont critiqués, en partie, à cause du biais induit par la stratification des populations. Nous proposons une étude de comparaison des stratégies qui existent pour prendre en compte ce problème. Leurs avantages et limites sont discutés en s'appuyant sur divers scénarios de structure des populations dans le but de proposer des conseils et indications pratiques. Nous nous intéressons ensuite à l'interférence de la structure des populations dans la recherche génétique. Nous avons développé au cours de cette thèse un nouvel algorithme appelé SHIPS (Spectral Hierarchical clustering for the Inference of Population Structure). Cet algorithme a été appliqué à un ensemble de jeux de données simulés et réels, ainsi que de nombreux autres algorithmes utilisés en pratique à titre de comparaison. Enfin, la question du test multiple dans ces études d'association est abordée à plusieurs niveaux. Nous proposons une présentation générale des méthodes de tests multiples et discutons leur validité pour différents designs d'études. Nous nous concertons ensuite sur l'obtention de résultats interprétables aux niveaux de gènes, ce qui correspond à une problématique de tests multiples avec des tests dépendants. Nous discutons et analysons les différentes approches dédiées à cette fin.