Thèse en cours

Liaison entre Apprentissage Automatique et Graphes

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 10/03/2022. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Gaëlle Candel
Direction : David Naccache
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 10/03/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
Equipe de recherche : SECURITY
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Matthieu Latapy
Examinateurs / Examinatrices : David Naccache, Marc Lelarge, Amaury Habrard, Stefan Bruckner, Luca Maria Aiello, Anastasia Bezerianos
Rapporteurs / Rapporteuses : Stefan Bruckner

Résumé

FR  |  
EN

L'objet de cette thèse est de proposer des approches nouvelles permettant l'utilisation d'algorithmes d'apprentissage automatique travaillant usuellement des données tabulaires aux graphes. Un graphe est une structure de donnée composée de nœuds reliés entre eux par des liens. Cette structure peut être représentée sous la forme d'une matrice, où chaque connexion entre de noeuds est représentée par une valeur non nulle, permettant une manipulation des données plus facile. Néanmoins, par leurs différences structurelles, la transposition d'un algorithme exploitant des données tabulaire aux graphes ne donne pas les résultats escomptés. Deux caractéristiques rendent cette adaptation difficile: la faible connectivité des noeuds ainsi que la distribution en loi de puissance du degré des nœuds. Ces caractéristiques conduisent toutes les deux à des matrices creuses pauvre en information tout en nécessitant beaucoup de mémoire de stockage. Dans ces travaux, nous proposons plusieurs manières de prendre en compte ces différences pour deux types de graphes particuliers. Dans la première partie, nous nous intéressons aux graphes de citations et à leur représentation dans l'optique de la veille technologique, tandis que la seconde partie s'adresse aux graphes bipartites utilisés principalement par les systèmes de recommandation. Ces adaptations permettent la réalisation de taches usuelles en apprentissage automatique, telle que le partitionnement et la visualisation des données. Pour le cas des graphes bipartites, des algorithmes spécifiques de co-partitionnement sont proposés pour la segmentation conjointe des deux parties. La troisième partie prend un revers différent. La méthode développée exploite le graphe des $k$ plus proche voisins construit à partir des données tabulaires afin de corriger des erreurs de classifications. Les différentes méthodes développées utilisent diverses approches pour emmagasiner plus d'information dans un vecteur par rapport à l'encodage binaire habituel, permettant de travailler les graphes avec des algorithmes usuel d'apprentissage automatique.