Thèse soutenue

Une approche basée sur l'hypergraphe de connaissances pour l'intégration de données multisource : Application à l'observation de la terre

FR  |  
EN
Auteur / Autrice : Maroua Masmoudi
Direction : Bernard ArchimèdeHajer Zghal Baazaoui
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/07/2020
Etablissement(s) : Toulouse, INPT en cotutelle avec Université de la Manouba (Tunisie)
Ecole(s) doctorale(s) : École doctorale Systèmes (Toulouse ; 1999-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Génie de Production (Tarbes ; 1989-....)
Etablissement d'accueil : École nationale d'ingénieurs (Tarbes)
Jury : Président / Présidente : Khalil Drira
Examinateurs / Examinatrices : Bernard Archimède, Hajer Zghal Baazaoui, Ernesto José Exposito Garcia, Faiez Gargouri, Genoveva Vargas-Solar, Faten Chaieb-Chakchouk
Rapporteurs / Rapporteuses : Ernesto José Exposito Garcia, Faiez Gargouri

Résumé

FR  |  
EN

Les dégâts humains et matériels engendrés par les catastrophes naturelles, avaient suscité un intérêt grandissant pour le développement des systèmes d’observation et de surveillance de l’environnement, sans pour autant mettre en exergue, la collaboration et l’échange comme principal point d’une efficace prévention des catastrophes. De tels systèmes génèrent des données hétérogènes et cloisonnées dans des silos. A défaut d’une vision globale des données disponibles, les experts éprouvent des difficultés à accéder, manipuler et comprendre ces données multi-source. Afin de remédier à cette insuffisance d’exploitation, un système d'intégration de données est essentiel pour briser les silos de données et créer un espace commun d'information où les données seront liées sémantiquement. C’est dans cet ordre d’idées que nous proposons une approche sémantique d'intégration et d'interrogation des données multisources. Pour ce faire, nous avons défini trois principaux objectifs. Le premier objectif est de formaliser les connaissances liées au domaine de l’environnement afin d'assurer une interopérabilité sémantique entre les données multi-source. Ainsi, nous avons proposé MEMOn, une ontologie de domaine qui fournit un vocabulaire commun couvrant le domaine de l’environnement. Nous avons adopté une méthodologie agile basée sur la modularisation, l’alignement avec une ontologie de haut niveau et la réutilisation des ontologies existantes. La modularisation consiste à développer des modules ontologiques séparés. Chaque module présente un contexte spécifique du domaine de l’environnement et ce dans le but d’assurer la clarté de la structure de l’ontologie globale. De plus, nous avons utilisé l’ontologie de haut niveau Basic Formal Ontology et les ontologies intermédiaires Common Core Ontologies afin de faciliter l’intégration des modules ontologiques développés pour créer MEMOn. Aussi, nous avons réutilisé des ontologies de domaine existantes telles que ENVO et SSN afin d’éviter de créer notre ontologie à partir de zéro. MEMOn est ensuite évaluée à l'aide de cas d'utilisation réelles et conformément aux exigences des experts. Le deuxième objectif de ce travail est de briser les silos de données et de fournir un espace commun d'information sur l'environnement où les données pourraient être liées sémantiquement. En conséquence, nous proposons une approche sémantique d'intégration virtuelle des données basée sur l'hypergraphe afin de fournir aux experts une vue intégrée et liée des données. L’approche consisite à génrer des mappings RML entre l'ontologie et les métadonnées et à créer ensuite un hypergraphe de connaissances qui relie sémantiquement ces mappings afin d’identifier des relations plus complexes entre les données. Un des atouts de l'approche proposée est qu'elle va au-delà du processus de combinaison de données extraites de sources indépendantes pour assurer une intégration de données hautement sémantique et expressive. Le troisième objectif de cette thèse concerne l'amélioration du traitement des requêtes en termes de précision et de complétude des résultats afin d'adapter les résultats renvoyés et les rendre plus pertinents et plus riches termes de relations. En conséquence, nous avons développé une approche de traitement des requêtes basée sur l'hypergraphe de connaissances qui améliore la tâche de sélection des sources contribuant au résultat final d'une requête SPARQL saisie. En effet, l'approche proposée transcende la simple découverte de correspondances entre la requête et les schémas de sources et assure l'identification de correspondances plus complexes avec les sources de données en se référant à l'hypergraphe de connaissances. Sur la base de ces résultats, d'autres étapes du traitement de la requête, y compris la réécriture de la requête et l'évaluation de la requête, sont effectuées. Notre approche est concrétisée par le développement d’un outil dont l’efficacité a été prouvée moyennant l’évaluation d’un cas réel.