Stability and selection of the number of groups in unsupervised clustering : application to the classification of triple negative breast cancers

Martina Sundqvist

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Stabilité et sélection du nombre de groupes en clustering non-supervisé : application à la classification des cancers du sein triple négatifs

FR |

EN

Auteur / Autrice :	Martina Sundqvist
Direction :	Julien Chiquet, Thierry Dubois, Guillem Rigaill
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques appliquées
Date :	Soutenance le 18/12/2020
Etablissement(s) :	université Paris-Saclay
Ecole(s) doctorale(s) :	École doctorale de mathématiques Hadamard
Partenaire(s) de recherche :	référent : Faculté des sciences d'Orsay
	Laboratoire : Laboratoire Mathématiques et Informatique Appliquées (Paris)
Jury :	Président / Présidente : Christophe Ambroise
	Examinateurs / Examinatrices : Anne-Laure Boulesteix, Avner Bar-Hen, Chloé-Agathe Azencott, Max Chaffanet
	Rapporteurs / Rapporteuses : Anne-Laure Boulesteix, Avner Bar-Hen

Mots clés

FR |

EN

Mots clés contrôlés

Cancérologie

Tumeurs -- Classification

Métaomique

Classification automatique

Mots clés libres

Cancer du sein triple négatif

Classification non supervisée

Omique

Stabilité des clusters

Rand Index

Résumé

FR |

EN

Dans cette thèse, je traite, d'un point de vue statistique, le sujet de la classification des tumeurs du cancer du sein triple négatif (TNBC). Je me concentre principalement sur l'utilisation de la stabilité des clusters pour sélectionner le nombre de groupes dans le clustering, la méthode généralement utilisée pour la classification des TNBC. L'objectif de cette méthode est d'obtenir une classification robuste, c'est-à-dire facilement reproductible sur des données similaires.Malgré sa popularité, on sait encore peu de choses sur la façon dont cette méthode fonctionne. Pour cette raison, je propose deux contributions méthodologiques importantes : (1) un package R, clustRstab}, qui permet d'estimer, de manière flexible, la stabilité d'un clustering avec différents paramètres. Ce package est accompagné d'une étude de simulation et d'une étude d'application qui examine sous quelles conditions cette méthode fonctionne. (2) Une version modifiée de la version Ajusté du Rand Index (ARI), un score populaire pour les comparaisons de clusters, étape cruciale pour estimer la stabilité d'un clustering. Je corrige ce score en le basant sur une hypothèse de distribution multinomiale qui lui permet de prendre en compte la dépendance entre les clusters et de faire des inférences statistiques. Ce ARI modifié (M ARI) est implémenté dans le package R aricode. Ces deux méthodes sont ensuite appliquées à une large cohorte de tumeurs TNBC et les résultats sont discutés en relation avec des résultats des classification du TNBC de la littérature.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Stabilité et sélection du nombre de groupes en clustering non-supervisé : application à la classification des cancers du sein triple négatifs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Stabilité et sélection du nombre de groupes en clustering non-supervisé : application à la classification des cancers du sein triple négatifs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses