Utilisation de connaissances ontologiques dans la liaison de contenus et de données appliquée au journalisme de données
Auteur / Autrice : | Cheikh Brahim El Vaigh |
Direction : | Guillaume Gravier, François Goasdoué, Pascale Sébillot |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 07/01/2021 |
Etablissement(s) : | Rennes 1 |
Ecole(s) doctorale(s) : | MATHSTIC |
Partenaire(s) de recherche : | Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Rennes, Bretagne-Atlantique) - SHAMAN |
Jury : | Président / Présidente : Sophie Rosset |
Examinateurs / Examinatrices : Peggy Cellier, Amedeo Napoli | |
Rapporteurs / Rapporteuses : Nathalie Pernelle, Xavier Tannier |
Mots clés
Résumé
Cette thèse s’intéresse à la création de liens entre contenus textuels et bases de connaissances ontologiques (BC). Elle fait appel à plusieurs domaines de recherche : le traitement automatique des langues, la recherche d’information et le web sémantique, notamment l’utilisation de BC fondées sur le modèle RDF. Nous proposons d’une part d’étudier le liage d’entités collectif qui cherche à relier simultanément les mentions d’entités présentes dans un texte aux entités d’une BC. Notre contribution porte sur la définition de mesures sémantiques bien fondées qui exploitent les propriétés des BC pour améliorer l’état de l’art, et permettent d’introduire du raisonnement. D’autre part, nous nous intéressons à l’alignement de différentes BC, moyennant des approches de plongement des bases dans des espaces de grandes dimensions. Cet alignement permet l’enrichissement des BC, et indirectement l’amélioration du liage d’entités collectif. Pour ce faire, nous proposons un nouveau critère qui se fonde sur l’alignement des dimensions des espaces de plongement des BC, et permet de résister à un alignement a priori bruité entre les BC, voire de supprimer ce besoin d’alignement manuel.