Thèse soutenue

Clustering et analyse différentielle de données d'expression génique

FR  |  
EN
Auteur / Autrice : Benjamin Hivert
Direction : Rodolphe ThiebautBoris Hejblum
Type : Thèse de doctorat
Discipline(s) : Santé publique Option Biostatistiques
Date : Soutenance le 24/09/2024
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : Sociétés, Politique, Santé Publique
Partenaire(s) de recherche : Laboratoire : Bordeaux population Health
Jury : Président / Présidente : Cécile Proust-Lima
Examinateurs / Examinatrices : Pierre Neuvial
Rapporteurs / Rapporteuses : Franck Picard, Cathy Maugis

Résumé

FR  |  
EN

Les analyses des données d’expression génique issues du séquençage de l’ARN (RNA-seq) en masse (bulk RNA-seq) ou en cellule unique (scRNA-seq) sont devenues courantes dans les études immunologiques. Elles permettent entre autres une meilleure compréhension de l’hétérogénéité présente dans les réponses immunitaires, qu’elles soient en réponse à la vaccination ou face à des maladies. Les analyses de ces données se font souvent selon deux étapes : i) d’abord une classification non supervisée, ou clustering, utilisant l’ensemble des gènes pour regrouper les échantillons en sousgroupes distincts et homogènes ; ensuite ii) l’analyse différentielle se faisant à l’aide de tests d’hypothèse visant à identifier les gènes qui sont différentiellement exprimés entre ces sous-groupes. Cependant, ces deux étapes successives soulèvent un problème méthodologique actuellement souvent ignoré dans la littérature appliquée. En effet, les méthodes traditionnelles d’inférence nécessitent des hypothèses de tests fixées a priori, sans dépendre des données, pour garantir un contrôle effectif de l’erreur de type I. Dans le contexte de ces analyses en deux étapes, les hypothèses de tests sont basées sur les résultats du clustering ce qui compromet le contrôle de l’erreur de type I des méthodes traditionnelles qui peuvent alors conduire à de fausses découvertes. Nous proposons alors de nouvelles méthodes statistiques qui permettent de tenir compte de cette double utilisation des données, garantissant un contrôle effectif du nombre de fausses découvertes.