Distances de Diffusion-Wasserstein pour les graphes attribués
Auteur / Autrice : | Dominique Barbe |
Direction : | Paulo Gonçalvès |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 10/12/2021 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : École normale supérieure de Lyon (2010-...) |
Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Dynamic Networks : Temporal and Structural Capture Approach | |
Jury : | Président / Présidente : Philippe Ciblat |
Examinateurs / Examinatrices : Paulo Gonçalvès, Philippe Ciblat, Rémi Flamary, Christine Guillemot, Julie Digne, Florence Forbes, Marc Sebban | |
Rapporteurs / Rapporteuses : Rémi Flamary, Christine Guillemot |
Mots clés
Résumé
Ces travaux ont porté sur la définition et l’étude de la distance de Diffusion-Wasserstein entre graphes attribués. Les graphes attribués sont des collections de points avec une description individuelle (attributs) et des liens entre eux (structure de graphe), comme une molécule ou un réseau social. La distance de Diffusion-Wasserstein est une généralisation de la distance de Wasserstein ; elle permet de définir une distance entre des graphes attribués, et de calculer un plan de transport entre eux. Son fonctionnement exploite la diffusion dans le graphe pour définir de nouveaux attributs et les comparer. Le temps de diffusion τ joue le rôle d’hyper-paramètre, contrôlant l’importance donnée aux attributs et à la structure. Comparée à d’autres distances de transport qui prennent en compte attributs et structure de graphe, la distance de Diffusion-Wasserstein est plus rapide à calculer, et donne les meilleures performances dans plusieurs tâches d’apprentissage.Le calcul du processus de diffusion a reçu une attention particulière. Ces travaux ont porté sur une approximation à base de polynômes de Tchebychev. Cette approximation permet d’accélérer le calcul de la diffusion, et une nouvelle borne de l’erreur d’approximation qui améliore l’état de l’art a été prouvée. Un heuristique spéciale pour le choix du temps de diffusion τ a été définie. Celle-ci se base sur la minimisation d’une fonction, semblable à une triplet-loss, qui utilise des imposteurs, des graphes attribués construits pour être dissimilaires aux données initiales. Cette heuristique obtient de meilleurs résultats que le critère de validation circulaire utilisé jusqu’ici.