Thèse soutenue

Méthodes statistiques pour la prise en compte de différentes sources de biais dans les études d'association à grande échelle

FR  |  
EN
Auteur / Autrice : Matthieu Bouaziz
Direction : Christophe AmbroiseMickaël Guedj
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 22/11/2012
Etablissement(s) : Evry-Val d'Essonne
Ecole(s) doctorale(s) : Ecole doctorale des Génomes aux organismes (Versailles ; 2000-2015)
Jury : Examinateurs / Examinatrices : Jean-François Zagury, David-Alexandre Trégouët
Rapporteurs / Rapporteuses : David Balding, Emmanuelle Génin

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Les études d'association à grande échelle sont devenus un outil très performant pour détecter les variants génétiques associés aux maladies. Ce manuscrit de doctorat s'intéresse à plusieurs des aspects clés des nouvelles problématiques informatiques et statistiques qui ont émergé grâce à de telles recherches. Les résultats des études d'association à grande échelle sont critiqués, en partie, à cause du biais induit par la stratification des populations. Nous proposons une étude de comparaison des stratégies qui existent pour prendre en compte ce problème. Leurs avantages et limites sont discutés en s'appuyant sur divers scénarios de structure des populations dans le but de proposer des conseils et indications pratiques. Nous nous intéressons ensuite à l'interférence de la structure des populations dans la recherche génétique. Nous avons développé au cours de cette thèse un nouvel algorithme appelé SHIPS (Spectral Hierarchical clustering for the Inference of Population Structure). Cet algorithme a été appliqué à un ensemble de jeux de données simulés et réels, ainsi que de nombreux autres algorithmes utilisés en pratique à titre de comparaison. Enfin, la question du test multiple dans ces études d'association est abordée à plusieurs niveaux. Nous proposons une présentation générale des méthodes de tests multiples et discutons leur validité pour différents designs d'études. Nous nous concertons ensuite sur l'obtention de résultats interprétables aux niveaux de gènes, ce qui correspond à une problématique de tests multiples avec des tests dépendants. Nous discutons et analysons les différentes approches dédiées à cette fin.