Méthodes statistiques pour la fouille de données dans les bases de données de génomique
Auteur / Autrice : | Konstantina Charmpi |
Direction : | Bernard Ycart |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 03/07/2015 |
Etablissement(s) : | Université Grenoble Alpes (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble, Isère, France ; 2007-....) |
Jury : | Président / Présidente : Adeline Samson |
Examinateurs / Examinatrices : Bernard Ycart, Sophie Rousseaux, Jean-Jacques Fournié | |
Rapporteurs / Rapporteuses : Jacques Van Helden, Valentine Genon-Catalot |
Mots clés
Mots clés libres
Résumé
Cette thèse est consacrée aux tests statistiques, visant à comparer un vecteur de données numériques, indicées par l'ensemble des gènes du génome humain, à un certain ensemble de gènes, connus pour être associés par exemple à un type donné de cancer. Parmi les méthodes existantes, le test Gene Set Enrichment Analysis est le plus utilisé. Néanmoins, il a deux inconvénients. D'une part, le calcul des p-valeurs est coûteux et peu précis. D'autre part, il déclare de nombreux résultats significatifs, dont une majorité n'ont pas de sens biologique. Ces deux problèmes sont traités, par l'introduction de deux procédures statistiques nouvelles, les tests de Kolmogorov-Smirnov pondéré et doublement pondéré. Ces deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction.