Thèse soutenue

Utilisation de connaissances ontologiques dans la liaison de contenus et de données appliquée au journalisme de données

FR  |  
EN
Auteur / Autrice : Cheikh Brahim El Vaigh
Direction : Guillaume GravierFrançois GoasdouéPascale Sébillot
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/01/2021
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Rennes, Bretagne-Atlantique) - SHAMAN
Jury : Président / Présidente : Sophie Rosset
Examinateurs / Examinatrices : Peggy Cellier, Amedeo Napoli
Rapporteurs / Rapporteuses : Nathalie Pernelle, Xavier Tannier

Résumé

FR  |  
EN

Cette thèse s’intéresse à la création de liens entre contenus textuels et bases de connaissances ontologiques (BC). Elle fait appel à plusieurs domaines de recherche : le traitement automatique des langues, la recherche d’information et le web sémantique, notamment l’utilisation de BC fondées sur le modèle RDF. Nous proposons d’une part d’étudier le liage d’entités collectif qui cherche à relier simultanément les mentions d’entités présentes dans un texte aux entités d’une BC. Notre contribution porte sur la définition de mesures sémantiques bien fondées qui exploitent les propriétés des BC pour améliorer l’état de l’art, et permettent d’introduire du raisonnement. D’autre part, nous nous intéressons à l’alignement de différentes BC, moyennant des approches de plongement des bases dans des espaces de grandes dimensions. Cet alignement permet l’enrichissement des BC, et indirectement l’amélioration du liage d’entités collectif. Pour ce faire, nous proposons un nouveau critère qui se fonde sur l’alignement des dimensions des espaces de plongement des BC, et permet de résister à un alignement a priori bruité entre les BC, voire de supprimer ce besoin d’alignement manuel.