Thèse soutenue

Tests et sélection de modèles pour l'analyse de données protéomiques et transcriptomiques

FR  |  
EN
Auteur / Autrice : Fanny Villers
Direction : Pascal MassartSylvie Huet
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance en 2007
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Les techniques permettant de recueillir des données d'expression pour un grand nombre de gènes ou protéines se sont développées ces dernières années. L'objet de cette thèse est de contribuer à l'apport de méthodes statistiques adaptées pour traiter ces données. Une première partie est consacrée à l’analyse différentielle de données protéomiques obtenues à partir d’images d’électrophorèse. Il s’agit de détecter les protéines dont l’abondance diffère selon différentes conditions expérimentales. Dans le cas où l’on compare plus de deux conditions simultanément, l’analyse différentielle consiste à détecter les composantes non nulles de l’espérance d’un vecteur gaussien dont les composantes ne sont pas indépendantes et dont la structure de dépendance est connue. Nous proposons une approche de type "sélection de modèles" basée sur la minimisation d'un critère des moindres carrés pénalisés. Les deux autres parties de la thèse concernent les modèles graphiques gaussiens, qui peuvent être utilisés pour décrire les réseaux d’interactions entre gènes. Dans la deuxième partie, nous présentons une étude basée sur des simulations afin de comparer les performances de plusieurs méthodes d'estimation de graphe. Dans la troisième partie nous proposons un test de validation de graphe. Les biologistes ont en effet souvent une bonne connaissance des relations directes entre gènes et nous proposons de tester si le graphe qui s'en déduit est correct. Pour cela nous construisons un test de voisinage de chaque sommet du graphe. Notre procédure est basée sur le test d'une hypothèse linéaire dans un modèle de régression multivariée dont les variables explicatives sont aléatoires.