A framework for the continuous curation of a knowledge base system - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

A framework for the continuous curation of a knowledge base system

Un cadre pour la curation continue d'un système de base de connaissances

Résumé

Entity-centric knowledge graphs (KGs) are becoming increasingly popular for gathering information about entities. The schemas of KGs are semantically rich, with many different types and predicates to define the entities and their relationships. These KGs contain knowledge that requires understanding of the KG’s structure and patterns to be exploited. Their rich data structure can express entities with semantic types and relationships, oftentimes domain-specific, that must be made explicit and understood to get the most out of the data. Although different applications can benefit from such rich structure, this comes at a price. A significant challenge with KGs is the quality of their data. Without high-quality data, the applications cannot use the KG. However, as a result of the automatic creation and update of KGs, there are a lot of noisy and inconsistent data in them and, because of the large number of triples in a KG, manual validation is impossible. In this thesis, we present different tools that can be utilized in the process of continuous creation and curation of KGs. We first present an approach designed to create a KG in the accounting field by matching entities. We then introduce methods for the continuous curation of KGs. We present an algorithm for conditional rule mining and apply it on large graphs. Next, we describe RuleHub, an extensible corpus of rules for public KGs which provides functionalities for the archival and the retrieval of rules. We also report methods for using logical rules in two different applications: teaching soft rules to pre-trained language models (RuleBert) and explainable fact checking (ExpClaim).
Les graphes de connaissances centrés sur les entités sont de plus en plus populaires pour recueillir des informations sur les entités. Les schémas des KG sont complexes, avec de nombreux types et prédicats différents pour définir les entités et leurs relations. Ces KG contiennent des connaissances spécifiques à un domaine, mais pour tirer le maximum de ces données, il faut comprendre la structure et les schémas du KG. Leurs données comprennent des entités et leurs types sémantiques pour un domaine spécifique. En outre, les propriétés des entités et les relations entre les entités sont stockées. En raison de l'émergence de nouveaux faits et entités et de l'existence de déclarations invalides, la création et la maintenance des KG est un processus sans fin. Dans cette thèse, nous présentons d'abord une approche destinée à créer un KG dans le domaine de l'audit en faisant correspondre des documents de différents niveaux. Nous introduisons ensuite des méthodes pour la curation continue des KGs. Nous présentons un algorithme pour la fouille des règles conditionnelles et l'appliquons sur de grands KGs. Ensuite, nous décrivons RuleHub, un corpus extensible de règles pour les KGs publiques qui fournit des fonctionnalités pour l'archivage et la récupération des règles. Nous proposons également des méthodes pour l'exploitation des règles logiques dans deux applications différentes: l'apprentissage de règles souples à des modèles de langage pré-entraînés (RuleBert) et la vérification explicable des faits (ExpClaim).
Fichier principal
Vignette du fichier
AHMADI_Naser_2021.pdf (3.69 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03560070 , version 1 (07-02-2022)

Identifiants

  • HAL Id : tel-03560070 , version 1

Citer

Naser Ahmadi. A framework for the continuous curation of a knowledge base system. Logic in Computer Science [cs.LO]. Sorbonne Université, 2021. English. ⟨NNT : 2021SORUS320⟩. ⟨tel-03560070⟩
210 Consultations
110 Téléchargements

Partager

Gmail Facebook X LinkedIn More