Thèse soutenue

Analyses multivariées de données de séquençage à haut débit

FR  |  
EN
Auteur / Autrice : Ghislain Durif
Direction : Franck PicardSophie Lambert-Lacroix
Type : Thèse de doctorat
Discipline(s) : Statistiques
Date : Soutenance le 13/12/2016
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale Evolution Ecosystèmes Microbiologie Modélisation (Lyon ; 1999-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
Laboratoire : Laboratoire de Biométrie et Biologie Evolutive
Jury : Président / Présidente : Anne-Laure Fougères
Examinateurs / Examinatrices : Marie-Agnès Dillies, Cédric Févotte
Rapporteurs / Rapporteuses : Jean-Michel Marin, Sylvain Sardy, Mark Van de Wiel

Résumé

FR  |  
EN

L'analyse statistique de données de séquençage à haut débit (NGS) pose des questions computationnelles concernant la modélisation et l'inférence, en particulier à cause de la grande dimension des données. Le travail de recherche dans ce manuscrit porte sur des méthodes de réductions de dimension hybrides, basées sur des approches de compression (représentation dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant la régression "Partial Least Squares" parcimonieuse (supervisée) et les méthodes de factorisation parcimonieuse de matrices (non supervisée). Dans les deux cas, notre objectif sera la reconstruction et la visualisation des données. Nous présenterons une nouvelle approche de type PLS parcimonieuse, basée sur une pénalité adaptative, pour la régression logistique. Cette approche sera utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire) à partir de l'expression des gènes. La principale problématique sera de prendre en compte la réponse pour écarter les variables non pertinentes. Nous mettrons en avant le lien entre la construction des algorithmes et la fiabilité des résultats.Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous proposons une approche probabiliste pour la factorisation de matrices de comptage, laquelle prend en compte la sur-dispersion et l'amplification des zéros (caractéristiques des données single-cell). Nous développerons une procédure d'estimation basée sur l'inférence variationnelle. Nous introduirons également une procédure de sélection de variables probabiliste basée sur un modèle "spike-and-slab". L'intérêt de notre méthode pour la reconstruction, la visualisation et le clustering de données sera illustré par des simulations et par des résultats préliminaires concernant une analyse de données "single-cell". Toutes les méthodes proposées sont implémentées dans deux packages R: plsgenomics et CMF