Thèse soutenue

Distances de Diffusion-Wasserstein pour les graphes attribués

FR  |  
EN
Auteur / Autrice : Dominique Barbe
Direction : Paulo Gonçalvès
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/12/2021
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : établissement opérateur d'inscription : École normale supérieure de Lyon (2010-...)
Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Dynamic Networks : Temporal and Structural Capture Approach
Jury : Président / Présidente : Philippe Ciblat
Examinateurs / Examinatrices : Paulo Gonçalvès, Philippe Ciblat, Rémi Flamary, Christine Guillemot, Julie Digne, Florence Forbes, Marc Sebban
Rapporteurs / Rapporteuses : Rémi Flamary, Christine Guillemot

Résumé

FR  |  
EN

Ces travaux ont porté sur la définition et l’étude de la distance de Diffusion-Wasserstein entre graphes attribués. Les graphes attribués sont des collections de points avec une description individuelle (attributs) et des liens entre eux (structure de graphe), comme une molécule ou un réseau social. La distance de Diffusion-Wasserstein est une généralisation de la distance de Wasserstein ; elle permet de définir une distance entre des graphes attribués, et de calculer un plan de transport entre eux. Son fonctionnement exploite la diffusion dans le graphe pour définir de nouveaux attributs et les comparer. Le temps de diffusion τ joue le rôle d’hyper-paramètre, contrôlant l’importance donnée aux attributs et à la structure. Comparée à d’autres distances de transport qui prennent en compte attributs et structure de graphe, la distance de Diffusion-Wasserstein est plus rapide à calculer, et donne les meilleures performances dans plusieurs tâches d’apprentissage.Le calcul du processus de diffusion a reçu une attention particulière. Ces travaux ont porté sur une approximation à base de polynômes de Tchebychev. Cette approximation permet d’accélérer le calcul de la diffusion, et une nouvelle borne de l’erreur d’approximation qui améliore l’état de l’art a été prouvée. Un heuristique spéciale pour le choix du temps de diffusion τ a été définie. Celle-ci se base sur la minimisation d’une fonction, semblable à une triplet-loss, qui utilise des imposteurs, des graphes attribués construits pour être dissimilaires aux données initiales. Cette heuristique obtient de meilleurs résultats que le critère de validation circulaire utilisé jusqu’ici.