Multivariate analysis of high-throughput sequencing data | Theses.fr

Ghislain Durif

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyses multivariées de données de séquençage à haut débit

FR |

EN

Auteur / Autrice :	Ghislain Durif
Direction :	Franck Picard, Sophie Lambert-Lacroix
Type :	Thèse de doctorat
Discipline(s) :	Statistiques
Date :	Soutenance le 13/12/2016
Etablissement(s) :	Lyon
Ecole(s) doctorale(s) :	École doctorale Evolution Ecosystèmes Microbiologie Modélisation
Partenaire(s) de recherche :	établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
	Laboratoire : Laboratoire de Biométrie et Biologie Evolutive
Jury :	Président / Présidente : Anne-Laure Fougères
	Examinateurs / Examinatrices : Marie-Agnès Dillies, Cédric Févotte
	Rapporteurs / Rapporteuses : Jean-Michel Marin, Sylvain Sardy, Mark Van de Wiel

Mots clés

FR |

EN

Mots clés contrôlés

Bioinformatique

Systèmes de grandes dimensions

Données -- Compression (informatique)

Intelligence computationnelle

Mots clés libres

Statistiques computationnelles

Données en grande dimension

Réduction de dimension

Compression

Sélection de Variables

Régression logistique

Partial Least Squares parcimonieuse

Factorisation probabiliste de matrices

Résumé

FR |

EN

L'analyse statistique de données de séquençage à haut débit (NGS) pose des questions computationnelles concernant la modélisation et l'inférence, en particulier à cause de la grande dimension des données. Le travail de recherche dans ce manuscrit porte sur des méthodes de réductions de dimension hybrides, basées sur des approches de compression (représentation dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant la régression "Partial Least Squares" parcimonieuse (supervisée) et les méthodes de factorisation parcimonieuse de matrices (non supervisée). Dans les deux cas, notre objectif sera la reconstruction et la visualisation des données. Nous présenterons une nouvelle approche de type PLS parcimonieuse, basée sur une pénalité adaptative, pour la régression logistique. Cette approche sera utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire) à partir de l'expression des gènes. La principale problématique sera de prendre en compte la réponse pour écarter les variables non pertinentes. Nous mettrons en avant le lien entre la construction des algorithmes et la fiabilité des résultats.Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous proposons une approche probabiliste pour la factorisation de matrices de comptage, laquelle prend en compte la sur-dispersion et l'amplification des zéros (caractéristiques des données single-cell). Nous développerons une procédure d'estimation basée sur l'inférence variationnelle. Nous introduirons également une procédure de sélection de variables probabiliste basée sur un modèle "spike-and-slab". L'intérêt de notre méthode pour la reconstruction, la visualisation et le clustering de données sera illustré par des simulations et par des résultats préliminaires concernant une analyse de données "single-cell". Toutes les méthodes proposées sont implémentées dans deux packages R: plsgenomics et CMF

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyses multivariées de données de séquençage à haut débit

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyses multivariées de données de séquençage à haut débit

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses