Mesure et enrichissement sémantiques des modèles à base d'embeddings pour la prédiction de liens dans les graphes de connaissances
Auteur / Autrice : | Nicolas Hubert |
Direction : | Davy Monticolo, Armelle Brun |
Type : | Thèse de doctorat |
Discipline(s) : | Génie des systèmes industriels |
Date : | Soutenance le 17/06/2024 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale SIMPPé - Sciences et ingénierie des molécules, des produits, des procédés, et de l'énergie (Lorraine ; 2018-....) |
Partenaire(s) de recherche : | Laboratoire : Équipe de recherche sur les processus innovatifs (Nancy) |
Jury : | Président / Présidente : Fabian Suchanek |
Examinateurs / Examinatrices : Davy Monticolo, Armelle Brun, Fatiha Saïs, Paul Groth | |
Rapporteurs / Rapporteuses : Fatiha Saïs, Paul Groth |
Mots clés
Mots clés contrôlés
Résumé
Les modèles d'embeddings à base de graphes de connaissances ont considérablement gagné en popularité ces dernières années. Ces modèles apprennent une représentation vectorielle des entités et des relations des graphes de connaissances (GCs). Cette thèse explore spécifiquement le progrès de tels modèles pour la tâche de prédiction de lien (PL), qui est d'une importance capitale car elle se retrouve dans plusieurs applications telles que les systèmes de recommandation. Dans cette thèse, divers défis liés à l'utilisation des modèles d'embeddings de GCs pour la PL sont identifiés : la rareté des ressources sémantiquement riches, la nature unidimensionnelle des cadres d'évaluation, et le manque de considérations sémantiques dans les approches d'apprentissage automatique. Cette thèse propose des solutions novatrices à ces défis. Premièrement, elle contribue au développement de ressources sémantiquement riches : les jeux de données principaux pour la prédiction de lien sont enrichis en utilisant des informations basées sur des schémas, EducOnto et EduKG sont proposés pour surmonter la pénurie de ressources dans le domaine éducatif, et PyGraft est introduit comme un outil innovant pour générer des ontologies synthétiques et des graphes de connaissances. Deuxièmement, la thèse propose une nouvelle métrique d'évaluation orientée sémantique, Sem@K, offrant une perspective multidimensionnelle sur la performance des modèles. Il est important de souligner que les modèles populaires sont réévalués en utilisant Sem@K, ce qui révèle des aspects essentiels et jusqu'alors inexplorés de leurs capacités respectives et souligne le besoin de cadres d'évaluation multidimensionnels. Troisièmement, la thèse se penche sur le développement d'approches neuro-symboliques, transcendant les paradigmes traditionnels de l'apprentissage automatique. Ces approches ne démontrent pas seulement une meilleure capacité sémantique dans leurs prédictions, mais étendent également leur utilité à diverses applications telles que les systèmes de recommandation. En résumé, le présent travail ne redéfinit pas seulement l'évaluation et la fonctionnalité des modèles d'embeddings de GCs, mais prépare également le terrain pour des systèmes d'intelligence artificielle plus polyvalents et interprétables, soutenant les explorations futures à l'intersection de l'apprentissage automatique et du raisonnement symbolique.