Thèse soutenue

Collaboration dans une fédération de consommateurs de données liées

FR  |  
EN
Auteur / Autrice : Pauline Folz
Direction : Pascal MolliHala Skaf
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 12/10/2017
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : COMUE : Université Bretagne Loire (2016-2019)
Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Marc Gelgon
Examinateurs / Examinatrices : Hubert Naacke
Rapporteurs / Rapporteuses : Catherine Faron, Esther Pacitti-Valduriez

Mots clés

FR

Résumé

FR  |  
EN

Les producteurs de données ont publié des millions de faits RDF sur le Web en suivant les principes des données liées. N’importe qui peut récupérer des informations utiles en interrogeant les données liées avec des requêtes SPARQL. Ces requêtes sont utiles dans plusieurs domaines, comme la santé ou le journalisme des données. Cependant, il y a un compromis entre la performance des requêtes et la disponibilité des données lors de l’exécution des requêtes SPARQL. Dans cette thèse, nous étudions comment la collaboration des consommateurs de données ouvre de nouvelles opportunités concernant ce compromis. Plus précisément, comment la collaboration des consommateurs de données peut : améliorer les performances sans dégrader la disponibilité, ou améliorer la disponibilité sans dégrader les performances. Nous considérons que les données liées permettent à n’importe qui d’exécuter un médiateur compact qui peut interroger des sources de données sur le Web grâce à des requêtes SPARQL. L’idée principale est de connecter ces médiateurs ensemble pour construire une fédération de consommateurs de données liées. Dans cette fédération, chaque médiateur interagit avec un sous-ensemble du réseau. Grâce à cette fédération, nous avons construit : (i) un cache décentralisé hébergé par les médiateurs. Ce cache côté client permet de prendre en charge une part importante des sous-requêtes et d’améliorer la disponibilité des données avec un impact faible sur les performances. (ii) un algorithme de délégation qui permet aux médiateurs de déléguer leurs requêtes à d’autres médiateurs. Nous démontrons que la délégation permet d’exécuter un ensemble de requêtes plus rapidement quand les médiateurs collaborent. Cela améliore les performances sans dégrader la disponibilité des données.