Thèse en cours

GraphologIA : Actionner les méga-graphes de données dans les dataflows d'apprentissage automatique

FR  |  
EN
Auteur / Autrice : Yuhe Bai
Direction : Hubert Naacke
Type : Projet de thèse
Discipline(s) : Sciences de l'ingénieur
Date : Inscription en doctorat le 01/10/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : LIP6

Résumé

FR  |  
EN

Ce projet aborde la préparation et la transformation des grands graphes de données destinées à entraîner des modèles d'apprentissage automatique. Cette étape est d'autant plus difficile que les données à transformer sont volumineuses, hétérogènes et dynamiques. Les nœuds représentent des concepts variés et possèdent des propriétés dont la sémantique n'est pas alignée sur un référentiel commun. Les liens entre nœuds sont eux-mêmes hétérogènes. L'analyse de ces très grands graphes nécessite le développement d'algorithmes distribués qui exploitent au mieux les infrastructures big data pour passer à l'échelle. De plus, la préparation de ces graphes doit être extensible pour s'adapter aux nouveaux modèles d'apprentissage automatique. L'objectif de cette thèse est de concevoir un framework efficace qui permettra d'exécuter plus efficacement à la fois la préparation des données d'apprentissage et l'entraînement d'un modèle d'apprentissage. La méthode consistera à définir un langage pour décrire de manière logique et déclarative le processus qui transforme les données initiales vers un graphe, avec unification et alignement. Puis des nouvelles solutions d'indexation d'agrégation seront étudiées pour accéder de manière aléatoire et rapide au graphe ainsi que pour le mettre à jour incrémentalement.