Analyses multivariées de données de séquençage à haut débit
Auteur / Autrice : | Ghislain Durif |
Direction : | Franck Picard, Sophie Lambert-Lacroix |
Type : | Thèse de doctorat |
Discipline(s) : | Statistiques |
Date : | Soutenance le 13/12/2016 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale Evolution Ecosystèmes Microbiologie Modélisation (Lyon ; 1999-....) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....) |
Laboratoire : Laboratoire de Biométrie et Biologie Evolutive | |
Jury : | Président / Présidente : Anne-Laure Fougères |
Examinateurs / Examinatrices : Marie-Agnès Dillies, Cédric Févotte | |
Rapporteurs / Rapporteuses : Jean-Michel Marin, Sylvain Sardy, Mark Van de Wiel |
Mots clés
Mots clés contrôlés
Résumé
L'analyse statistique de données de séquençage à haut débit (NGS) pose des questions computationnelles concernant la modélisation et l'inférence, en particulier à cause de la grande dimension des données. Le travail de recherche dans ce manuscrit porte sur des méthodes de réductions de dimension hybrides, basées sur des approches de compression (représentation dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant la régression "Partial Least Squares" parcimonieuse (supervisée) et les méthodes de factorisation parcimonieuse de matrices (non supervisée). Dans les deux cas, notre objectif sera la reconstruction et la visualisation des données. Nous présenterons une nouvelle approche de type PLS parcimonieuse, basée sur une pénalité adaptative, pour la régression logistique. Cette approche sera utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire) à partir de l'expression des gènes. La principale problématique sera de prendre en compte la réponse pour écarter les variables non pertinentes. Nous mettrons en avant le lien entre la construction des algorithmes et la fiabilité des résultats.Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous proposons une approche probabiliste pour la factorisation de matrices de comptage, laquelle prend en compte la sur-dispersion et l'amplification des zéros (caractéristiques des données single-cell). Nous développerons une procédure d'estimation basée sur l'inférence variationnelle. Nous introduirons également une procédure de sélection de variables probabiliste basée sur un modèle "spike-and-slab". L'intérêt de notre méthode pour la reconstruction, la visualisation et le clustering de données sera illustré par des simulations et par des résultats préliminaires concernant une analyse de données "single-cell". Toutes les méthodes proposées sont implémentées dans deux packages R: plsgenomics et CMF