GraphologIA : Actionner les méga-graphes de données dans les dataflows d'apprentissage automatique
Auteur / Autrice : | Yuhe Bai |
Direction : | Hubert Naacke |
Type : | Projet de thèse |
Discipline(s) : | Sciences de l'ingénieur |
Date : | Inscription en doctorat le 01/10/2022 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : LIP6 |
Résumé
Ce projet aborde la préparation et la transformation des grands graphes de données destinées à entraîner des modèles d'apprentissage automatique. Cette étape est d'autant plus difficile que les données à transformer sont volumineuses, hétérogènes et dynamiques. Les nuds représentent des concepts variés et possèdent des propriétés dont la sémantique n'est pas alignée sur un référentiel commun. Les liens entre nuds sont eux-mêmes hétérogènes. L'analyse de ces très grands graphes nécessite le développement d'algorithmes distribués qui exploitent au mieux les infrastructures big data pour passer à l'échelle. De plus, la préparation de ces graphes doit être extensible pour s'adapter aux nouveaux modèles d'apprentissage automatique. L'objectif de cette thèse est de concevoir un framework efficace qui permettra d'exécuter plus efficacement à la fois la préparation des données d'apprentissage et l'entraînement d'un modèle d'apprentissage. La méthode consistera à définir un langage pour décrire de manière logique et déclarative le processus qui transforme les données initiales vers un graphe, avec unification et alignement. Puis des nouvelles solutions d'indexation d'agrégation seront étudiées pour accéder de manière aléatoire et rapide au graphe ainsi que pour le mettre à jour incrémentalement.