Méthodes statistiques pour l’analyse différentielle de données RNA-seq en masse et en cellule unique appliquées en immunologie

Marine Gauthier

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Méthodes statistiques pour l’analyse différentielle de données RNA-seq en masse et en cellule unique appliquées en immunologie

FR |

EN

Auteur / Autrice :	Marine Gauthier
Direction :	Rodolphe Thiébaut, Boris Hejblum
Type :	Thèse de doctorat
Discipline(s) :	Santé publique Option Biostatistiques
Date :	Soutenance le 02/12/2021
Etablissement(s) :	Bordeaux
Ecole(s) doctorale(s) :	École doctorale Sociétés, politique, santé publique (Talence, Gironde ; 2011-....)
Partenaire(s) de recherche :	Laboratoire : Bordeaux population Health
Jury :	Président / Présidente : Nathalie Villa-Vialaneix
	Examinateurs / Examinatrices : Rodolphe Thiébaut, Boris Hejblum, Nathalie Villa-Vialaneix, Franck Picard, Pierre Neuvial
	Rapporteurs / Rapporteuses : Franck Picard, Pierre Neuvial

Mots clés

FR |

EN

Mots clés contrôlés

Expression génique

Immunologie

Séquençage à haut débit

Mots clés libres

Analyse d’expression différentielle

Gène

RNA-Seq en masse

Immunologie

RNA-seq en cellule unique

Modèle mixte

Test d’indépendance conditionnelle

Résumé

FR |

EN

La technologie RNA-seq s’impose comme le nouveau standard pour la mesure de l’expression génique. Ses variations peuvent être mises en lien avec de nombreuses pathologies ou phénotypes et peuvent être détectées par des méthodes statistiques dites d’analyse différentielle. L’objectif de l’analyse différentielle est d’identifier les gènes dont le niveau d’expression est significativement associé à un ensemble de variables. La complexité grandissante des schémas expérimentaux exige des approches plus flexibles, par la nature des variables à tester et par la prise en compte de covariables, tout en maîtrisant le taux de fausses découvertes. Nous introduisons une nouvelle méthode d’analyse différentielle pour données RNA-seq en masse reposant sur un modèle linéaire à effets mixtes et un test du score en composante de variance. Par une étude de simulations et une analyse d’un jeu de données réelles sur la Tuberculose, il apparaît que notre méthode conserve une bonne puissance statistique et limite le nombre de potentiels faux positifs, comparativement aux méthodes les plus populaires. Tandis que les données RNA-seq en masse correspondent à l’expression moyenne d’une population cellulaire, l’émergence récente de la technologie RNA-seq en cellule unique a permis de mesurer le niveau d’expression des gènes à l’échelle de la cellule offrant ainsi une résolution biologique inédite. La particularité de ce nouveau type de données réside dans le nombre important de zéros et l’hétérogénéité des distributions, souvent multimodales, rendant la modélisation difficile. Afin d’allier flexibilité et absence d’hypothèse distributionnelle, nous proposons une approche basée sur un test d’indépendance conditionnelle qui s’appuie sur une estimation originale des fonctions de distribution conditionnelles par des régressions multiples. Nous l’appliquons à un jeu de données réelles de cellules T CD8+ réactives au SARS-CoV-2, afin d’identifier les gènes différentiellement exprimés dans trois groupes de gravité COVID-19 tout en tenant compte de sept sous-populations cellulaires différentes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Méthodes statistiques pour l’analyse différentielle de données RNA-seq en masse et en cellule unique appliquées en immunologie

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Méthodes statistiques pour l’analyse différentielle de données RNA-seq en masse et en cellule unique appliquées en immunologie

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses