Liaison entre Apprentissage Automatique et Graphes
Auteur / Autrice : | Gaëlle Candel |
Direction : | David Naccache |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le Soutenance le 10/03/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
Equipe de recherche : SECURITY | |
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Matthieu Latapy |
Examinateurs / Examinatrices : David Naccache, Marc Lelarge, Amaury Habrard, Stefan Bruckner, Luca Maria Aiello, Anastasia Bezerianos | |
Rapporteurs / Rapporteuses : Stefan Bruckner |
Mots clés
Résumé
L'objet de cette thèse est de proposer des approches nouvelles permettant l'utilisation d'algorithmes d'apprentissage automatique travaillant usuellement des données tabulaires aux graphes. Un graphe est une structure de donnée composée de nœuds reliés entre eux par des liens. Cette structure peut être représentée sous la forme d'une matrice, où chaque connexion entre de noeuds est représentée par une valeur non nulle, permettant une manipulation des données plus facile. Néanmoins, par leurs différences structurelles, la transposition d'un algorithme exploitant des données tabulaire aux graphes ne donne pas les résultats escomptés. Deux caractéristiques rendent cette adaptation difficile: la faible connectivité des noeuds ainsi que la distribution en loi de puissance du degré des nœuds. Ces caractéristiques conduisent toutes les deux à des matrices creuses pauvre en information tout en nécessitant beaucoup de mémoire de stockage. Dans ces travaux, nous proposons plusieurs manières de prendre en compte ces différences pour deux types de graphes particuliers. Dans la première partie, nous nous intéressons aux graphes de citations et à leur représentation dans l'optique de la veille technologique, tandis que la seconde partie s'adresse aux graphes bipartites utilisés principalement par les systèmes de recommandation. Ces adaptations permettent la réalisation de taches usuelles en apprentissage automatique, telle que le partitionnement et la visualisation des données. Pour le cas des graphes bipartites, des algorithmes spécifiques de co-partitionnement sont proposés pour la segmentation conjointe des deux parties. La troisième partie prend un revers différent. La méthode développée exploite le graphe des $k$ plus proche voisins construit à partir des données tabulaires afin de corriger des erreurs de classifications. Les différentes méthodes développées utilisent diverses approches pour emmagasiner plus d'information dans un vecteur par rapport à l'encodage binaire habituel, permettant de travailler les graphes avec des algorithmes usuel d'apprentissage automatique.