Exploitation et Structuration des Données et de Connaissances Géologiques Hétérogènes
Auteur / Autrice : | Marijan Soric |
Direction : | Pierre Senellart, Ioana Manolescu |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/09/2024 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre |
Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
Equipe de recherche : VALDA | |
établissement opérateur d'inscription : Ecole normale supérieure |
Mots clés
Résumé
L'objectif est de développer une méthodologie pour construire un entrepôt de données à partir des informations disponibles aux géologues, de manière entièrement automatisée. Cet entrepôt sera multimodal, intégrant du texte, des images et divers types de contenus structurés. Les techniques d'extraction d'informations seront employées pour extraire les données des documents bruts (par exemple, tableaux de PDF, coordonnées d'un lieu caractéristique sur une carte géologique, identification de couches géologiques à partir d'un schéma) et les enrichir avec des métadonnées. Les techniques d'apprentissage profond pourront être utilisées pour créer des représentations des différentes modalités, qui seront ensuite combinées dans un modèle global d'extraction d'information. L'intégration des données provenant de diverses sources et la sémantisation de leur contenu seront réalisées grâce à des techniques d'extraction d'information ouvertes, en lien avec des bases de connaissances telles que Wikidata, qui fournissent des informations de base sur les minéraux et leur localisation. La thèse vise à améliorer l'accessibilité et la réutilisation des données du BRGM en les dotant de métadonnées (trace de l'incertitude et de la provenance des données) et en les restructurant pour une utilisation plus efficace. Cela pose plusieurs défis scientifiques, notamment la tâche complexe d'extraire des informations à partir du corpus varié de documents du BRGM, afin d'y intégrer efficacement des annotations spatiales ou d'autres types d'annotations.