Clustering et analyse différentielle de données d'expression génique
Auteur / Autrice : | Benjamin Hivert |
Direction : | Rodolphe Thiebaut, Boris Hejblum |
Type : | Thèse de doctorat |
Discipline(s) : | Santé publique Option Biostatistiques |
Date : | Soutenance le 24/09/2024 |
Etablissement(s) : | Bordeaux |
Ecole(s) doctorale(s) : | Sociétés, Politique, Santé Publique |
Partenaire(s) de recherche : | Laboratoire : Bordeaux population Health |
Jury : | Président / Présidente : Cécile Proust-Lima |
Examinateurs / Examinatrices : Pierre Neuvial | |
Rapporteur / Rapporteuse : Franck Picard, Cathy Maugis |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les analyses des données d’expression génique issues du séquençage de l’ARN (RNA-seq) en masse (bulk RNA-seq) ou en cellule unique (scRNA-seq) sont devenues courantes dans les études immunologiques. Elles permettent entre autres une meilleure compréhension de l’hétérogénéité présente dans les réponses immunitaires, qu’elles soient en réponse à la vaccination ou face à des maladies. Les analyses de ces données se font souvent selon deux étapes : i) d’abord une classification non supervisée, ou clustering, utilisant l’ensemble des gènes pour regrouper les échantillons en sousgroupes distincts et homogènes ; ensuite ii) l’analyse différentielle se faisant à l’aide de tests d’hypothèse visant à identifier les gènes qui sont différentiellement exprimés entre ces sous-groupes. Cependant, ces deux étapes successives soulèvent un problème méthodologique actuellement souvent ignoré dans la littérature appliquée. En effet, les méthodes traditionnelles d’inférence nécessitent des hypothèses de tests fixées a priori, sans dépendre des données, pour garantir un contrôle effectif de l’erreur de type I. Dans le contexte de ces analyses en deux étapes, les hypothèses de tests sont basées sur les résultats du clustering ce qui compromet le contrôle de l’erreur de type I des méthodes traditionnelles qui peuvent alors conduire à de fausses découvertes. Nous proposons alors de nouvelles méthodes statistiques qui permettent de tenir compte de cette double utilisation des données, garantissant un contrôle effectif du nombre de fausses découvertes.