Thèse en cours

Combinaison d'approches de raisonnement par ontologie et machine learning pour l'aide à la construction d'ontologies

FR  |  
EN
Auteur / Autrice : Pauline Armary
Direction : Christophe NicolleOuassila Narsis labbani
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 16/01/2023
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Connaissance et Intelligence Artificielle Distribuées
établissement de préparation : Université de Bourgogne (1970-....)

Résumé

FR  |  
EN

Depuis 2019, la Knowledge Graph Conférence met à l'honneur les utilisations industrielles des technologies de graphes de connaissances et d'ontologies, qui permettent de plus en plus d'application dans de nombreux domaines. Cependant, la capacité d'une ontologie à attraper une situation (domaine métier, grandes masses de données, etc.) dépend grandement de la qualité de la modélisation de cette situation. Si sur les situations de faible périmètre, la modélisation peut être effectuée à la main, l'élaboration d'une ontologie pour les cas de plus grande envergure (domaine métier décrit dans différents textes de lois ou référentiels à travers des milliers d'articles, etc.) est un processus long et minutieux dont la réalisation nécessite une automatisation. Parmi les solutions actuellement à l'étude pour l'aide à la construction d'ontologies, l'utilisation de techniques d'apprentissage automatique (machine learning) est une voie sérieusement envisagée autrement appelée ontology learning. Ce domaine de l'intelligence artificielle s'intéresse à la création et la maintenance d'ontologies de manière automatisée (ou partiellement automatisée), processus par lequel les éléments constitutifs des ontologies (Terminological Box, Assertional Box, Rule Box) peuvent être « appris » à partir de différentes sources documentaires ou sources de données. Le domaine de l'ontology learning brasse un grand nombre de problématiques qui répondent aux deux questions suivantes : - Quoi apprendre ? Cette première question lève le sujet essentiel du domaine en s'intéressant au but de l'apprentissage. Il a été proposé l'ontology learning layer cake présentant le processus d'apprentissage d'ontologie comme un empilement de sous-tâches de plus en plus complexes : les termes, les concepts, la structure taxonomique, les relations non-taxonomiques, les axiomes et les règles. Apprendre des règles : le challenge que nous souhaitons adresser est celui de la construction automatique d'une ontologie formelle dite « heavyweight », c'est-à-dire visant les deux couches les plus hautes du layer cake. Ce sujet est clairement identifié dans la littérature comme un challenge majeur de la construction automatique d'ontologies, qui n'a été adressé que par une minorité d'articles et dont les résultats actuels sont considérés comme insuffisants. - A partir de quoi apprendre ? Les techniques d'apprentissage sont fondées en général sur une étude (semi-)automatisée d'une source pour laquelle le résultat est déjà connu ou, pour le moins, dont la qualité saurait être évaluée. On considère deux grandes classes de sources : des données non-structurées (textesbruts) et des données (semi-)structurées (XML, JSON, CSV, etc). Apprendre à partir de données textuelles : Notre approche s'intéresse principalement aux données textuelles. Une très large majorité de la littérature de l'ontology learning est dédiée à la construction d'ontologies à partir de texte brut et montre que le sujet est d'actualité. Notre hypothèse de travail est que l'identification dans les sources documentaires et les sources de données des constructions fondamentales des logiques formelles sous-jacentes aux ontologies (logiques de description) permettra de définir une modélisation du domaine sur l'ensemble des éléments de l'ontologie (termes, concepts, attributs, relations, contraintes et règles) avec d'une part une grande précision et d'autre part l'assurance d'une cohérence et d'une complétude formelles. Une méthode d'identification des axiomes des logiques de description à partir de sources hétérogènes pourrait permettre de surmonter certains défis liés à la construction manuelle d'ontologies, tels que la difficulté à construire une ontologie complexe en partant de zéro et à maintenir sa cohérence au fil du temps. L'objectif à terme sera de concevoir un outil d'aide avancée à la construction d'ontologies formelles heavyweight, destinés aux ingénieurs de la connaissance.