Thèse soutenue

Création de graphes de connaissances géospatiaux à partir de sources hétérogènes

FR  |  
EN
Auteur / Autrice : Helen Mair Rawsthorne
Direction : Cécile DuchêneEric Saux
Type : Thèse de doctorat
Discipline(s) : Sciences et Technologies de l'Information Géographique
Date : Soutenance le 15/01/2024
Etablissement(s) : Université Gustave Eiffel
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne) - Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne)
Jury : Président / Présidente : Thierry Joliveau
Examinateurs / Examinatrices : Cécile Duchêne, Eric Saux, Thierry Joliveau, Nathalie Hernandez, Ian N. Gregory, Nathalie Abadie, Eric Kergosien, Antoine Zimmermann
Rapporteurs / Rapporteuses : Nathalie Hernandez, Ian N. Gregory

Résumé

FR  |  
EN

Certaines connaissances spatiales, actuelles ou historiques, n'existent que sous forme de texte. Les guides de voyage, les documents historiques et les publications sur les réseaux sociaux sont quelques exemples de sources de connaissances spatiales non structurées. Les sources textuelles contiennent des connaissances spatiales naturellement hétérogènes : elles peuvent être écrites par différents auteurs, en utilisant un vocabulaire différent, à partir d'un point de vue différent. Elles peuvent par ailleurs couvrir des zones géographiques larges et diverses et contenir des niveaux de détail variés. Pour toutes ces raisons il est difficile d'intégrer dans les modèles de SIG l'information géographique provenant de texte. L'hypothèse du monde ouvert des technologies du Web sémantique induit que les graphes de connaissances sont une meilleure solution pour modéliser et stocker les connaissances géographiques extraites de textes hétérogènes, incomplets et imparfaits en langage naturel. Structurées en graphe de connaissances géospatial, les connaissances spatiales ambiguës peuvent être désambiguïsées et liées à des ressources géographiques de référence, ce qui les enrichit de références spatiales directes lorsque c'est possible et facilite considérablement leur accessibilité et réutilisation. L'objectif de cette thèse est de développer une approche opérationnelle pour la construction de graphes de connaissances à partir de texte et des données géographiques de référence. Cette approche doit permettre d'intégrer à la fois des références spatiales directes et indirectes. Nous appliquons nos recherches à un corpus de texte français, ce qui nous permet d'identifier et de valider empiriquement une méthodologie fonctionnelle pour la construction de graphes de connaissances géospatiales à partir de texte. Le corpus est constitué des ouvrages Instructions nautiques du Shom, qui décrivent l'environnement maritime côtier et donnent des instructions de navigation côtière. La contribution principale de cette thèse est la méthodologie ATONTE pour la construction semi-automatique de graphes de connaissances, géospatiaux ou non, à partir de texte, des connaissances d'experts et des données de référence. Nous présentons cette méthodologie en détail et nous démontrons la manière dont nous l'avons implémentée afin de construire un graphe de connaissances géospatial du contenu des Instructions nautiques. La première composante de la méthodologie ATONTE est une méthodologie pour le développement d'ontologies de domaine à partir de texte et d'experts. Nous l'appliquons à notre corpus, en intégrant les résultats d'entretiens réalisés auprès d'experts de notre corpus, afin de développer l'ontologie ATLANTIS : une ontologie noyau géospatiale du domaine des Instructions nautiques. La deuxième composante est une approche automatique pour l'extraction d'entités imbriquées et de relations binaires à partir de texte en utilisant des réseaux de neurones profonds. Les modèles sont entraînés sur un jeu de données annoté manuellement, spécifique au domaine. Nous implémentons cette approche afin d'extraire les entités et les relations spatiales de notre corpus, ce qui exige la création d'un jeu de données d'entraînement en français, annoté à la main. Nous donnons des résultats de référence pour ce jeu de données pour l'extraction d'entités spatiales imbriquées, l'extraction de relations spatiales binaires, et l'extraction combinée d'entités et de relations spatiales de bout en bout. La dernière composante utilise des outils disponibles afin de structurer les entités et relations spatiales extraites des Instructions nautiques selon l'ontologie ATLANTIS dans un premier temps, et de lier les entités à leurs entrées correspondantes dans la BD TOPO® dans un second temps. Le résultat est une base opérationnelle du graphe de connaissances géospatial des Instructions nautiques