Thèse en cours

Exploitation et Structuration des Données et de Connaissances Géologiques Hétérogènes

FR  |  
EN
Auteur / Autrice : Marijan Soric
Direction : Pierre SenellartIoana Manolescu
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/09/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
Equipe de recherche : VALDA
établissement opérateur d'inscription : Ecole normale supérieure

Résumé

FR  |  
EN

L'objectif est de développer une méthodologie pour construire un entrepôt de données à partir des informations disponibles aux géologues, de manière entièrement automatisée. Cet entrepôt sera multimodal, intégrant du texte, des images et divers types de contenus structurés. Les techniques d'extraction d'informations seront employées pour extraire les données des documents bruts (par exemple, tableaux de PDF, coordonnées d'un lieu caractéristique sur une carte géologique, identification de couches géologiques à partir d'un schéma) et les enrichir avec des métadonnées. Les techniques d'apprentissage profond pourront être utilisées pour créer des représentations des différentes modalités, qui seront ensuite combinées dans un modèle global d'extraction d'information. L'intégration des données provenant de diverses sources et la sémantisation de leur contenu seront réalisées grâce à des techniques d'extraction d'information ouvertes, en lien avec des bases de connaissances telles que Wikidata, qui fournissent des informations de base sur les minéraux et leur localisation. La thèse vise à améliorer l'accessibilité et la réutilisation des données du BRGM en les dotant de métadonnées (trace de l'incertitude et de la provenance des données) et en les restructurant pour une utilisation plus efficace. Cela pose plusieurs défis scientifiques, notamment la tâche complexe d'extraire des informations à partir du corpus varié de documents du BRGM, afin d'y intégrer efficacement des annotations spatiales ou d'autres types d'annotations.