Stabilité et sélection du nombre de groupes en clustering non-supervisé : application à la classification des cancers du sein triple négatifs
Auteur / Autrice : | Martina Sundqvist |
Direction : | Julien Chiquet, Thierry Dubois, Guillem Rigaill |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 18/12/2020 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard |
Partenaire(s) de recherche : | référent : Faculté des sciences d'Orsay |
Laboratoire : Laboratoire Mathématiques et Informatique Appliquées (Paris) | |
Jury : | Président / Présidente : Christophe Ambroise |
Examinateurs / Examinatrices : Anne-Laure Boulesteix, Avner Bar-Hen, Chloé-Agathe Azencott, Max Chaffanet | |
Rapporteurs / Rapporteuses : Anne-Laure Boulesteix, Avner Bar-Hen |
Mots clés
Résumé
Dans cette thèse, je traite, d'un point de vue statistique, le sujet de la classification des tumeurs du cancer du sein triple négatif (TNBC). Je me concentre principalement sur l'utilisation de la stabilité des clusters pour sélectionner le nombre de groupes dans le clustering, la méthode généralement utilisée pour la classification des TNBC. L'objectif de cette méthode est d'obtenir une classification robuste, c'est-à-dire facilement reproductible sur des données similaires.Malgré sa popularité, on sait encore peu de choses sur la façon dont cette méthode fonctionne. Pour cette raison, je propose deux contributions méthodologiques importantes : (1) un package R, clustRstab}, qui permet d'estimer, de manière flexible, la stabilité d'un clustering avec différents paramètres. Ce package est accompagné d'une étude de simulation et d'une étude d'application qui examine sous quelles conditions cette méthode fonctionne. (2) Une version modifiée de la version Ajusté du Rand Index (ARI), un score populaire pour les comparaisons de clusters, étape cruciale pour estimer la stabilité d'un clustering. Je corrige ce score en le basant sur une hypothèse de distribution multinomiale qui lui permet de prendre en compte la dépendance entre les clusters et de faire des inférences statistiques. Ce ARI modifié (M ARI) est implémenté dans le package R aricode. Ces deux méthodes sont ensuite appliquées à une large cohorte de tumeurs TNBC et les résultats sont discutés en relation avec des résultats des classification du TNBC de la littérature.