Thèse soutenue

Méthodes statistiques pour la fouille de données dans les bases de données de génomique

FR  |  
EN
Auteur / Autrice : Konstantina Charmpi
Direction : Bernard Ycart
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 03/07/2015
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble, Isère, France ; 2007-....)
Jury : Président / Présidente : Adeline Samson
Examinateurs / Examinatrices : Bernard Ycart, Sophie Rousseaux, Jean-Jacques Fournié
Rapporteurs / Rapporteuses : Jacques Van Helden, Valentine Genon-Catalot

Résumé

FR  |  
EN

Cette thèse est consacrée aux tests statistiques, visant à comparer un vecteur de données numériques, indicées par l'ensemble des gènes du génome humain, à un certain ensemble de gènes, connus pour être associés par exemple à un type donné de cancer. Parmi les méthodes existantes, le test Gene Set Enrichment Analysis est le plus utilisé. Néanmoins, il a deux inconvénients. D'une part, le calcul des p-valeurs est coûteux et peu précis. D'autre part, il déclare de nombreux résultats significatifs, dont une majorité n'ont pas de sens biologique. Ces deux problèmes sont traités, par l'introduction de deux procédures statistiques nouvelles, les tests de Kolmogorov-Smirnov pondéré et doublement pondéré. Ces deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction.