Thèse en cours

Apprentissage Automatique sur Graphes: de l'Explicabilité à l'Action Climatique
FR  |  
EN
Accès à la thèse
Triangle exclamation pleinLa soutenance a eu lieu en 2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Alexandre Duval
Direction : Fragkiskos Malliaros
Type : Projet de thèse
Discipline(s) : Sciences du traitement du signal et des images
Date : Soutenance en 2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : [CVN] Centre de la Vision Numérique
référent : CentraleSupélec
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Examinateurs / Examinatrices : Nicolas Vayatis, Danai Koutra, Charlotte Laclau, Marc Lelarge, Stephan Günnemann
Rapporteurs / Rapporteuses : Marc Lelarge, Stephan Günnemann

Résumé

FR  |  
EN

Dans un monde de plus en plus interconnecté, les graphes se sont imposés comme la principale modalité de représentation des données. Ils servent de cadre fondamental pour représenter des relations complexes dans des domaines variés, tels que les réseaux de transport, les structures sociales et les systèmes de connaissances. Pour exploiter les idées latentes de ces structures complexes, l'apprentissage automatique sur graphes (Graph ML) a émergé comme un domaine essentiel, mettant en avant des réseaux de neurones spécifiques appelés GNNs. Cette thèse explore le domaine du Graph ML avec pour objectif de relever des défis à fort impact bénéfique pour la société. La première partie se concentre sur l'amélioration des GNNs traditionnels. Nous introduisons d'abord GraphSVX, une méthode d'explicabilité locale post-hoc, agnostique au modèle, pour les prédictions des GNNs. En construisant un modèle de substitution sur un jeu de données perturbé, GraphSVX décompose les prédictions en contributions marginales moyennes des noeuds et attributs. Les explications fournies ont une valeur théorique et des propriétés désirables. Ensuite, nous présentons HoscPool, un opérateur d'aggrégation des noeuds basé sur le clustering différentiable, qui réduit hiérarchiquement le graphe en utilisant des structures d'ordre supérieur. Le but est d'améliorer les performances de prédiction dans les tâches de classification de graphes, en particulier pour les applications biomédicales et chimio-informatiques. La deuxième partie se concentre sur les GNNs géométriques pour la prédiction des propriétés des systèmes atomiques 3D, ciblant spécifiquement les électrocatalyseurs car ils ont le potentiel de réduire la consommation d'énergie de divers processus industriels. Après avoir présenté un guide complet du domaine, nos deux contributions sur les GNNs géométriques, FAENet et PhAST, mettent en avant des améliorations dans le compromis précision/rapidité. Avec PhAST, nous proposons des méthodes adaptées pour optimiser le fonctionnement des GNNs géométriques afin de prédire l'énergie relaxée des systèmes adsorbant-catalyseur. Nous couvrons des améliorations touchant l'étape de création du graphe, l'initialisation des représentations latentes et le bloc de prédiction final. Cela se traduit par une amélioration des performances, de l'efficacité et d'un entraînement distribué sur CPU. Avec FAENet, nous proposons un nouveau paradigme pour imposer les symétries physiques des systèmes atomiques 3D via des projections de données au lieu de contraintes de conception du modèle. Cette approche nous permet d'introduire une nouvelle architecture de GNN géométrique, légère et expressive, pour des prédictions équivariantes sous SE(3) ou E(3). FAENet peut être combiné à PhAST. Dans l'ensemble, les méthodes proposées favorisent un avenir où le Graph ML a un impact positif sur la société.