Méthodes spectrales pour la classification sur les graphes
Auteur / Autrice : | Lorenzo Dall'Amico |
Direction : | Romain Couillet, Nicolas Tremblay |
Type : | Thèse de doctorat |
Discipline(s) : | Signal image parole telecoms |
Date : | Soutenance le 12/10/2021 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Equipe de recherche : Communication and Information in Compex Systems (CICS) test |
Laboratoire : Grenoble Images parole signal automatique (2007-....) | |
Jury : | Président / Présidente : Jean-Philippe Bouchaud |
Examinateurs / Examinatrices : Alain Barrat, Francesco Bonchi, Laurent Massoulié | |
Rapporteurs / Rapporteuses : Lenka Zdeborová, Tiago De Paula Peixoto |
Résumé
La catégorisation, c’est-à-dire la capacité à attribuer les mêmes étiquettes à des objets partageant des propriétés similaires, est l’une des principales tâches de l’apprentissage automatique. Ces dernières années, la quantité toujours croissante de données à notre disposition nous offre la possibilité sans précédent de concevoir des méthodes de catégorisation sophistiquées et statistiquement significatives, mais elle exige également un effort considérable pour concevoir des algorithmes évolutifs et efficaces, capables de traiter correctement ces ensembles de données. Le clustering spectral (SC) est l’une des techniques les plus populaires pour catégoriser les éléments d’un ensemble de données qui peut être représenté sous la forme d’un graphe. Il s’agit d’une classe d’algorithmes non supervisés pour lesquels la “meilleure” partition ne nécessite pas l’aide d’informations supplémentaires et est plutôt obtenue en exploitant les dépendances entre les éléments du jeu dedonnées. Dans les algorithmes SC, l’information concernant la structure des données d’entrée est obtenue grâce aux vecteurs propres d’une matrice appropriée. Les intuitions et les résultats justifiant le SC sont à la croisée des chemins de plusieurs domaines tels que les statistiques, la théorie des matrices aléatoires, l’informatique, la science des réseaux, le traitement du signal, la physique statistique et ont jusqu’à présent été traités de manière indépendante.Dans ce manuscrit, nous étudions le cadre difficile (mais pertinent) des matrices parcimonieuses, dans lesquelles seules quelques entrées de la représentation matricielle sont différentes de zéro. Nous nous concentrons en particulier sur les applications du SC pour la détection de communautés (à la fois statiques et dynamiques) et pour la sparsification des matrices à noyau pour le clustering de vecteurs en grande dimension. Nous nous appuyons pour cela sur les avancées récentes de la physique statistique pour le SC afin de proposer des algorithmes améliorés qui surpassent, preuve à l’appui, les méthodes existantes pour les tâches de classification autant sur des données synthétiques que sur des données réelles. De plus, nous proposons un cadre simple qui donne une vue unifiée de certaines des méthodes les plus influentes qui forment l’état de l’art pour le SC. Les algorithmes existants de la littérature peuvent souvent être considérés comme des cas extrêmes des méthodes que nous proposons qui constituent plutôt un “optimum” capable de s’adapter à la difficulté du problème de classification. Nous détaillons également une implémentation efficace des algorithmes que nous proposons pour les tâches pratiques de SC.