Thèse soutenue

Gestion efficace de Big Data dans le contexte spatial et RDF

FR  |  
EN
Auteur / Autrice : Houssameddine Yousfi
Direction : Allel HadjaliHoucine MatallahAmin Mesmoudi
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 07/12/2023
Etablissement(s) : Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique en cotutelle avec Université Abou Bekr Belkaid (Tlemcen, Algérie)
Ecole(s) doctorale(s) : École doctorale Sciences et Ingénierie des Systèmes, Mathématiques, Informatique (Limoges ; 2018-2022)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique et d'Automatique pour les Systèmes / LIAS
Jury : Examinateurs / Examinatrices : Azeddine Chikh, Mohand Saïd Hacid
Rapporteurs / Rapporteuses : Fatima Debbat, Laurent D'Orazio

Résumé

FR  |  
EN

Depuis l'apparition du modèle relationnel, les systèmes de gestion de données relationnelles ont dominé les autres systèmes en raison de la simplicité liée à la représentation des données et de leur capacité à répondre aux requêtes déclaratives. Cependant, le modèle relationnel souffre de plusieurs limitations qui le rendent indésirable pour de nombreux cas d'utilisation. En effet, le modèle relationnel ne convient pas à certains types de données comme les données graphes (souvent utilisées dans la manipulation des graphes de connaissances) et les données spatiales (souvent utilisées dans les systèmes d'information géographique). Cette limitation a conduit à l'introduction de bases de données spatiales et les systèmes de stockage des triplets pour les données spatiales et les données graphes respectivement. Dans cette thèse, nous considérons les deux types de données : Graphe et Spatial. Cependant, nous nous concentrons davantage sur les données spatiales et les défis imposés par les données hybrides (contenant des objets provenant des deux représentations : spatiale et graphe). Le premier problème est le coût élevé de l'évaluation des opérateurs spatiaux. Nous essayons d'améliorer les performances des opérateurs spatiaux sur de grands jeux de données spatiales stockées sur disque. Le deuxième problème abordé est le traitement des jeux de données hybrides, puisqu'ils donnent lieu à plusieurs problèmes à plusieurs niveaux tels que le stockage, l'indexation, l'interrogation et l'optimisation. Afin d'améliorer les performances des opérateurs spatiaux, nous proposons une nouvelle technique pour explorer les indexes spatiaux tout en minimisant le nombre d'opérations d'E/S vers/depuis le disque. Nous comparons l'approche proposée avec l'état de l'art en utilisant des jeux de données réels. En plus de, et afin de résoudre les problèmes engendrés par les données hybrides, nous proposons une extension (Spatial‐Qdag) d'un triplestore existant (RDF_QDAG) qui couvre plusieurs couches du système : stockage, évaluation et optimisation. Nous comparons l'extension spatiale (Spatial‐Qdag) avec des triplestores commerciaux en utilisant des jeux de données réels. Les résultats des expérimentations menées démontrent une amélioration significative des performances des opérateurs spatiaux pour la plupart des requêtes en utilisant l'approche proposée. Ce qui signifie une supériorité de l'extension proposée (Spatial‐Qdag) par rapport aux systèmes comparés.