Thèse en cours

Investigation des relations entre différents algorithmes de détection de communauté

FR  |  
EN
Auteur / Autrice : Leonardo Martins bianco
Direction : Christine Keribin
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/10/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....)
Equipe de recherche : Probabilités et statistiques (LMO)
Référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

De nombreux algorithmes ont été proposés au cours des dernières décennies pour effectuer le clustering de graphes. S'il est pratiquement impossible d'en faire une revue exhaustive, la plupart des méthodes peuvent être classées selon la taxonomie suivante : Méthodes probabilistes (le graphe observé est supposé être une réalisation d'un graphe aléatoire avec une structure de communauté. Le modèle à blocs stochastiques (SBM) en est le représentant le plus populaire), Clustering spectral (basé sur l'analyse du spectre de la matrice laplacienne du Graphe) et l'apprentissage par représentation (le graphe est supposé avoir une structure latente (inconnue) de dimension inférieure. La factorisation matricielle non négative en est un exemple populaire). Ces méthodes reposant sur des hypothèses de modélisation différentes, les sorties de deux algorithmes différents peuvent différer considérablement. Par conséquent, pour un jeu de données et une application donnés, il est souvent difficile de dire quel algorithme utiliser. Ce projet se concentrera sur l'étude des relations entre les trois catégories de méthodes décrites ci-dessus, avec des points de vue théoriques et méthodologiques, fournissant un guide aux experts du domaine pour le choix d'une procédure de clustering de graphe. Pour ce faire, nous proposons la feuille de route suivante : (1) des conditions dans lesquelles un algorithme spectral peut récupérer la partition correcte d'un graphe aléatoire échantillonné à partir d'un SBM ont été déjà établies. Nous proposons de prendre le chemin inverse et d'étudier comment le spectre du Laplacien de graphe joue avec des estimateurs du SBM. L'accent sera mis sur les estimateurs variationnels, très populaires dans la communauté de l'apprentissage automatique grâce à leur expression facilement calculable qui les rendent attrayants à la fois théoriquement et en pratique. (2) Comprendre les liens entre les différentes approches permettra de définir rigoureusement des critères de sélection du nombre de clusters dans les approches déterministes: en particulier, nous visons à établir une relation entre les critères de sélection pénalisés SBM et le gap spectral du clustering de graphes. (3) Étudier la robustesse de SBM et des méthodes de représentation dans un contexte mal spécifié, c'est-à-dire quand ces modèles ne sont pas les modèles sous-jacents. Des simulations seront faites pour soutenir la recherche théorique.