Thèse soutenue

Enrichissement et peuplement d’ontologie à partir de textes et de données du LOD : Application à l’annotation automatique de documents

FR  |  
EN
Auteur / Autrice : Céline Alec
Direction : Chantal Reynaud
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/09/2016
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Laboratoire : Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020)
Jury : Président / Présidente : Brigitte Grau
Examinateurs / Examinatrices : Chantal Reynaud, Brigitte Grau, Serge Garlatti, Yannick Toussaint, Myriam Lamolle, Brigitte Safar
Rapporteurs / Rapporteuses : Serge Garlatti, Yannick Toussaint

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse traite d'une approche, guidée par une ontologie, conçue pour annoter les documents d'un corpus où chaque document décrit une entité de même type. Dans notre contexte, l'ensemble des documents doit être annoté avec des concepts qui sont en général trop spécifiques pour être explicitement mentionnés dans les textes. De plus, les concepts d'annotation ne sont représentés au départ que par leur nom, sans qu'aucune information sémantique ne leur soit reliée. Enfin, les caractéristiques des entités décrites dans les documents sont incomplètes. Pour accomplir ce processus particulier d'annotation de documents, nous proposons une approche nommée SAUPODOC (Semantic Annotation Using Population of Ontology and Definitions of Concepts) qui combine plusieurs tâches pour (1) peupler et (2) enrichir une ontologie de domaine. La phase de peuplement (1) ajoute dans l'ontologie des informations provenant des documents du corpus mais aussi du Web des données (Linked Open Data ou LOD). Le LOD représente aujourd'hui une source prometteuse pour de très nombreuses applications du Web sémantique à condition toutefois de développer des techniques adaptées d'acquisition de données. Dans le cadre de SAUPODOC, le peuplement de l'ontologie doit tenir compte de la diversité des données présentes dans le LOD : propriétés multiples, équivalentes, multi-valuées ou absentes. Les correspondances à établir, entre le vocabulaire de l'ontologie à peupler et celui du LOD, étant complexes, nous proposons un modèle pour faciliter leur spécification. Puis, nous montrons comment ce modèle est utilisé pour générer automatiquement des requêtes SPARQL et ainsi faciliter l'interrogation du LOD et le peuplement de l'ontologie. Celle-ci, une fois peuplée, est ensuite enrichie(2) avec les concepts d'annotation et leurs définitions qui sont apprises grâce à des exemples de documents annotés. Un raisonnement sur ces définitions permet enfin d'obtenir les annotations souhaitées. Des expérimentations ont été menées dans deux domaines d'application, et les résultats, comparés aux annotations obtenues avec des classifieurs, montrent l'intérêt de l'approche.