Thèse soutenue

Découverte de règles expressives pour le raffinement de graphes de connaissances

FR  |  
EN
Auteur / Autrice : Armita Khajeh Nassiri
Direction : Fatiha SaïsNathalie PernelleGianluca Quercini
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/07/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Equipe de recherche : Données et Connaissances Massives et Hétérogènes (équipe de recherche)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Maguelonne Teisseire
Examinateurs / Examinatrices : Jérôme David, Arnaud Soulet, Sylvain Chevallier, Luis Galárraga Del Prado, Hala Skaf
Rapporteurs / Rapporteuses : Jérôme David, Arnaud Soulet

Résumé

FR  |  
EN

Les graphes de connaissances (KG) sont des structures de graphes hétérogènes représentant des faits dans un format lisible par une machine. Ils trouvent des applications dans des tâches telles que la réponse automatique aux questions, la désambiguïsation et liaison d'entités. Cependant, les graphes de connaissances sont intrinsèquement incomplets et il est essentiel de les raffiner pour améliorer leur qualité. Pour compléter le graphe de connaissances, il est possible de prédire les liens manquants dans un graphe de connaissances ou d'intégrer des sources externes. En extrayant des règles du graphe de connaissances, nous pouvons les exploiter pour compléter le graphe tout en fournissant des explications. Plusieurs approches ont été proposées pour extraire efficacement des règles. Or, la littérature manque de méthodes efficaces pour incorporer des prédicats numériques dans les règles. Pour répondre à cette lacune, nous proposons REGNUM, qui permet d'extraire des règles numériques avec des contraintes d'intervalle. REGNUM s'appuie sur les règles générées par un système d'extraction de règles existant et les enrichit en incorporant des prédicats numériques guidés par des mesures de qualité. En outre, la nature interconnectée des données web offre un potentiel significatif pour compléter et raffiner les KG, par exemple, par le liage des données, qui consiste à trouver des liens d'identité entre des entités de KG différents. Nous présentons RE-miner, une approche qui extrait des expressions référentielles (RE) pour une classe dans un graphe de connaissances.Les REs sont des règles qui ne s'appliquent qu'à une seule entité. Elles facilitent la découverte de connaissances et permettent de lier les données de manière explicable. De plus, nous visons à explorer les avantages et les opportunités de l'affinage des modèles linguistiques pour combler le fossé entre les KG et les données textuelles. Nous présentons GilBERT, qui exploite le fine-tuning sur des modèles linguistiques tels que BERT en optimisant une fonction de coût par triplet pour les tâches de prédiction de relation et de classification de triple. En prenant en compte ces défis et en proposant des approches novatrices, cette thèse contribue au raffinement des KG, en mettant particulièrement l'accent sur l'explicabilité et la découverte de connaissances. Les résultats de cette recherche ouvrent la voie à de nouvelles questions de recherche qui font progresser vers des KG de meilleure qualité.