Clustering et analyse différentielle de données d'expression génique

Benjamin Hivert

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Clustering et analyse différentielle de données d'expression génique

FR |

EN

Auteur / Autrice :	Benjamin Hivert
Direction :	Rodolphe Thiebaut, Boris Hejblum
Type :	Thèse de doctorat
Discipline(s) :	Santé publique Option Biostatistiques
Date :	Soutenance le 24/09/2024
Etablissement(s) :	Bordeaux
Ecole(s) doctorale(s) :	École doctorale Sociétés, politique, santé publique (Talence, Gironde ; 2011-....)
Partenaire(s) de recherche :	Laboratoire : Bordeaux population Health
Jury :	Président / Présidente : Cécile Proust-Lima
	Examinateurs / Examinatrices : Pierre Neuvial
	Rapporteurs / Rapporteuses : Franck Picard, Cathy Maugis

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux de régulation génique

Modèles mathématiques

Expression génique

Mots clés libres

Clustering

Analyse différentielle

Inférence sélective

RNA-Seq

Résumé

FR |

EN

Les analyses des données d’expression génique issues du séquençage de l’ARN (RNA-seq) en masse (bulk RNA-seq) ou en cellule unique (scRNA-seq) sont devenues courantes dans les études immunologiques. Elles permettent entre autres une meilleure compréhension de l’hétérogénéité présente dans les réponses immunitaires, qu’elles soient en réponse à la vaccination ou face à des maladies. Les analyses de ces données se font souvent selon deux étapes : i) d’abord une classification non supervisée, ou clustering, utilisant l’ensemble des gènes pour regrouper les échantillons en sousgroupes distincts et homogènes ; ensuite ii) l’analyse différentielle se faisant à l’aide de tests d’hypothèse visant à identifier les gènes qui sont différentiellement exprimés entre ces sous-groupes. Cependant, ces deux étapes successives soulèvent un problème méthodologique actuellement souvent ignoré dans la littérature appliquée. En effet, les méthodes traditionnelles d’inférence nécessitent des hypothèses de tests fixées a priori, sans dépendre des données, pour garantir un contrôle effectif de l’erreur de type I. Dans le contexte de ces analyses en deux étapes, les hypothèses de tests sont basées sur les résultats du clustering ce qui compromet le contrôle de l’erreur de type I des méthodes traditionnelles qui peuvent alors conduire à de fausses découvertes. Nous proposons alors de nouvelles méthodes statistiques qui permettent de tenir compte de cette double utilisation des données, garantissant un contrôle effectif du nombre de fausses découvertes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Clustering et analyse différentielle de données d'expression génique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Clustering et analyse différentielle de données d'expression génique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses