Thèse soutenue

Optimisation basée sur les graphes pour une évaluation efficace et scalable des requêtes

FR  |  
EN
Auteur / Autrice : Ishaq Zouaghi
Direction : Ladjel BellatrecheTaoufik AguiliAmin Mesmoudi
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 08/11/2022
Etablissement(s) : Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique
Ecole(s) doctorale(s) : École doctorale Sciences et Ingénierie des Systèmes, Mathématiques, Informatique (Limoges ; 2018-2022)
Jury : Président / Présidente : Azza Ouled Zaid
Examinateurs / Examinatrices : Daniela Grigori
Rapporteurs / Rapporteuses : Sofian Maabout, Asma Ben Letaifa

Résumé

FR  |  
EN

Nous assistons depuis plusieurs années à une évolution dans les pratiques liées à la création et l’exploitation des bases de connaissances. Cette évolution a été engendrée, dans un premier temps, par la transformation du Web classique "dit de documents" en Web de données. Dans cette optique, l’interconnexion massive des données, des informations et des connaissances a permis de créer ce qu’on appelle aujourd'hui les graphes de connaissances. Rapidement, ce concept a été étendu à d’autres domaines (e.g., média, industrie automobile et pharmaceutique, biologie). Les graphes de connaissances permettent aujourd'hui d’apporter une certaine sémantique pour donner un contexte et des relations aux données, tout en fournissant un cadre standard pour l'intégration, l'unification, l'analyse et le partage des données. Dans ce contexte, le Resource Description Framework (RDF) et SPARQL se sont distingués respectivement pour représenter les données et les interroger. La nécessité de gérer et interroger efficacement les données RDF a conduit au développement de nouveaux systèmes, appelés "Triplestores", qui sont conçus spécialement pour traiter ce format de données. Malgré le nombre important de Triplestores proposés dans la littérature, il est difficile de trouver une solution qui offre des temps de réponse acceptables pour des requêtes SPARQL lorsqu’il s’agit de gérer plusieurs milliards de triplets RDF. En effet, ces systèmes s’appuient sur des techniques de stockage, d’évaluation et d’optimisation de requêtes qui ne sont pas en adéquation avec la nature des données RDF à cause de l’absence d’un schéma explicite de données. Récemment, certains systèmes, tels que RDF\_QDAG, ont montré qu'en combinant l'exploration de graphes et le regroupement structurel (clustering) de données en fragments, on peut atteindre un bon compromis entre performances et passage à l’échelle à condition choisir les techniques d’évaluation et d’optimisation adéquates. Dans cette thèse, nous avons étudié dans un premier temps les mécanismes d’évaluation offerts par ce type de système, ce qui nous a permis d’identifier les différentes possibilités d’optimisations. Nous nous sommes intéressés à deux problèmes : 1) le choix du plan d’exécution qui reflète l’ordre d’exploration du graphe RDF et 2) L’élagage des fragments impertinents pour un plan d’exécution. Concernant le premier problème, nous avons proposé quatre stratégies permettant de trouver le meilleur plan d'exécution possible. Trois de nos stratégies s'appuie sur des statistiques collectées à partir des données tandis que la quatrième s'appuie sur une heuristique qui utilise la structure de la requête pour générer le plan d'exécution. Concernant le deuxième problème, nous avons proposé une nouvelle approche à base d’hypergraphes permettant de raffiner un plan d’exécution en élaguant les fragments qui ne contribuent pas à la construction des résultats finaux. Enfin, nous fournissons une validation expérimentale de toutes nos propositions en utilisant des bancs d’essai RDF bien connus.