Apprentissage de graphes via l'optimisation bi-niveau
Auteur / Autrice : | Hashem Ghanem |
Direction : | Samuel Vaiter, Joseph Salmon |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 12/09/2023 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Carnot-Pasteur (Besançon ; Dijon ; 2012-....) |
Partenaire(s) de recherche : | Etablissement de préparation : Université de Bourgogne (1970-2024) |
Laboratoire : Institut de Mathématiques de Bourgogne (IMB) (Dijon) | |
Jury : | Président / Présidente : Hervé Cardot |
Examinateurs / Examinatrices : Nicolas Keriven, Barbara Pascal, Patricia Reynaud-Bouret | |
Rapporteurs / Rapporteuses : Pierre-Olivier Amblard, Nicolas Papadakis |
Mots clés
Résumé
Cette thèse se concentre sur l’apprentissage de graphes pour les tâches d’apprentissage semi-supervisé afin d’atténuer l’impact du bruit dans les graphes du monde réel. Une approche pour apprendre les graphes est d’utiliser l’optimisation bi-niveau, dont le problème interne optimise le modèle en aval, et son problème externe évalue la performance du modèle optimisé par rapport à une perte d’étiquetage et met à jour le graphe en conséquence. Ce problème est en général numériquement intractable. Une solution consiste à remplacer l’optimiseur interne par la sortie d’un algorithme itératif convergeant vers un bon proxy, puis à utiliser la différentiation automatique pour évaluer sa dérivée par rapport au graphe, qui est appris à l’aide d’un algorithme basé sur le gradient. Dans cette thèse, nous proposons d’abord d’appliquer cette approche pour apprendre les priorités d’analyse-parcimonie, ce qui revient à un problème d’apprentissage de graphe dans les applications liées à la variation totale de graphe. Bien que le problème soit non-lisse, nous prouvons empiriquement la capacité de ce solveur dans les tâches de débruitage de signaux 1D et 2D. Nous proposons ensuite d’utiliser l’optimisation bi-niveau pour entraîner un modèle paramétrique sur la prédiction de la similitude entre les nœuds, au lieu d’apprendre directement le graphe. Nous montrons que cela améliore notablement les performances par rapport aux graphes observés. Enfin, nous identifions et analysons le problème de gradient scarcity, qui consiste en un manque de supervision sur les arêtes reliant des nœuds non étiquetés éloignés. Nous prouvons que ce problème émerge lors de l’optimisation directe des arêtes observées tout en utilisant des réseaux de neurones graphiques ou la régularisation laplacienne dans la tâche en aval. Nous examinons plusieurs solutions à ce problème, notamment l’apprentissage métrique, la régularisation de graphe ou l’expansion du graphe, et prouvons leur efficacité.