Thèse soutenue

Liaison entre apprentissage automatique et graphes

FR  |  
EN
Auteur / Autrice : Gaëlle Candel
Direction : David Naccache
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/03/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
Equipe de recherche : Équipe Sécurité (Paris)
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Matthieu Latapy
Examinateurs / Examinatrices : David Naccache, Matthieu Latapy, Stefan Bruckner, Marc Lelarge, Amaury Habrard, Luca Maria Aiello, Anastasia Bezerianos
Rapporteurs / Rapporteuses : Stefan Bruckner

Résumé

FR  |  
EN

L’objet de cette thèse est de proposer des approches nouvelles permettant l’utilisation d’algorithmes d’apprentissage automatique travaillant usuellement des données tabulaires aux graphes. Un graphe est une structure de donnée composée de nœuds reliés entre eux par des liens. Cette structure peut être représentée sous la forme d’une matrice, où chaque connexion entre de nœuds est représentée par une valeur non nulle, permettant une manipulation des données plus facile. Néanmoins, par leurs différences structurelles, la transposition d’un algorithme exploitant des données tabulaires aux graphes ne donne pas les résultats escomptés. Deux caractéristiques rendent cette adaptation difficile : la faible connectivité des nœuds ainsi que la distribution en loi de puissance du degré des nœuds. Ces caractéristiques conduisent toutes les deux à des matrices creuses pauvres en information tout en nécessitant beaucoup de mémoire de stockage. Dans ces travaux, nous proposons plusieurs manières de prendre en compte ces différences pour deux types de graphes particuliers. Dans la première partie, nous nous intéressons aux graphes de citations et à leur représentation dans l’optique de la veille technologique, tandis que la seconde partie s’adresse aux graphes bipartites utilisés principalement par les systèmes de recommandation. Ces adaptations permettent la réalisation de taches usuelles en apprentissage automatique, telle que le partitionnement et la visualisation des données. Pour le cas des graphes bipartites, des algorithmes spécifiques de co-partitionnement sont proposés pour la segmentation conjointe des deux parties. La troisième partie prend un revers différent. La méthode développée exploite le graphe des k plus proches voisins construit à partir des données tabulaires afin de corriger des erreurs de classifications. Les différentes méthodes développées utilisent diverses approches pour emmagasiner plus d’information dans un vecteur par rapport à l’encodage binaire habituel, permettant de travailler les graphes avec des algorithmes usuel d’apprentissage automatique.