Thèse soutenue

Stabilité et sélection du nombre de groupes en clustering non-supervisé : application à la classification des cancers du sein triple négatifs

FR  |  
EN
Auteur / Autrice : Martina Sundqvist
Direction : Julien ChiquetThierry DuboisGuillem Rigaill
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 18/12/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : référent : Faculté des sciences d'Orsay
Laboratoire : Laboratoire Mathématiques et Informatique Appliquées (Paris)
Jury : Président / Présidente : Christophe Ambroise
Examinateurs / Examinatrices : Anne-Laure Boulesteix, Avner Bar-Hen, Chloé-Agathe Azencott, Max Chaffanet
Rapporteurs / Rapporteuses : Anne-Laure Boulesteix, Avner Bar-Hen

Résumé

FR  |  
EN

Dans cette thèse, je traite, d'un point de vue statistique, le sujet de la classification des tumeurs du cancer du sein triple négatif (TNBC). Je me concentre principalement sur l'utilisation de la stabilité des clusters pour sélectionner le nombre de groupes dans le clustering, la méthode généralement utilisée pour la classification des TNBC. L'objectif de cette méthode est d'obtenir une classification robuste, c'est-à-dire facilement reproductible sur des données similaires.Malgré sa popularité, on sait encore peu de choses sur la façon dont cette méthode fonctionne. Pour cette raison, je propose deux contributions méthodologiques importantes : (1) un package R, clustRstab}, qui permet d'estimer, de manière flexible, la stabilité d'un clustering avec différents paramètres. Ce package est accompagné d'une étude de simulation et d'une étude d'application qui examine sous quelles conditions cette méthode fonctionne. (2) Une version modifiée de la version Ajusté du Rand Index (ARI), un score populaire pour les comparaisons de clusters, étape cruciale pour estimer la stabilité d'un clustering. Je corrige ce score en le basant sur une hypothèse de distribution multinomiale qui lui permet de prendre en compte la dépendance entre les clusters et de faire des inférences statistiques. Ce ARI modifié (M ARI) est implémenté dans le package R aricode. Ces deux méthodes sont ensuite appliquées à une large cohorte de tumeurs TNBC et les résultats sont discutés en relation avec des résultats des classification du TNBC de la littérature.