Thèse soutenue

Caractérisation incrémentale d'une base de triplets RDF

FR  |  
EN
Auteur / Autrice : Adrien Basse
Direction : Fabien GandonIsabelle MirbelMoussa Lô
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2012
Etablissement(s) : Nice en cotutelle avec Université de Saint-Louis (Sénégal)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)
Partenaire(s) de recherche : autre partenaire : Université de Nice-Sophia Antipolis. Faculté des sciences

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Nombreuses sont les applications web sémantique qui s’intéressent à la problématique de l’intégration de données issues de sources RDF distribuées. Pour l’exécution de requêtes distribuées, par exemple, plusieurs solutions sont ainsi proposées comme SPARQL 1. 1 Federation qui définit un ensemble d’extensions au langage de requête SPARQL. Si ces extensions permettent de déléguer une partie de requête à un ensemble de services, un problème majeur subsiste encore pour déterminer automatiquement en amont les services disposant de réponses pour une requête donnée. La résolution de ce problème est particulièrement cruciale dans un contexte comme le Linking Open Data où de nombreuses sources RDF hétérogènes sont publiées. Pour pouvoir envoyer une requête uniquement aux sources de données concernées, une description complète et compacte de chaque source est nécessaire. Pour connaître le contenu d’une source RDF nous pouvons nous baser sur les motifs de graphes qui la composent. Dans cette thèse, nous nous intéressons à l’extraction de ces motifs de graphes. Nous proposons pour cela une extension du codage DFS (Depth-First Search) de (Yan et Han, 2002) aux motifs de graphes RDF qui sont orientés et étiquetés et une opération de jointure entre codes DFS pour construire itérativement les différents niveaux d’une structure d’index de sources de données RDF. La structure d’index ainsi générée est constituée d’une hiérarchie de graphes RDF et permet d’identifier les types de données contenus dans la source indexée. Le choix du codage DFS pour représenter les motifs de graphe facilite entre autre les tests isomorphes et les opérations de jointure entre motifs de graphe mais pose un réel problème d’exploitation de la structure d’index. En effet, les hiérarchies de codes DFSR issues de processus de construction de structures d’index sont difficiles à lire (succession d’entiers) et à interroger. Pour palier cela, nous proposons une interface de visualisation des structures d’index générées et un ensemble d’algorithmes de transformation des codes DFSR dans des formats comme RDF plus « lisibles » et plus facilement exploitables. L’ajout ou la suppression d’annotations de la source de données RDF peut entraîner des changements dans la structure d’index. A la place d’une reconstruction totale de la structure d’index nous proposons une procédure qui identifie d’abord les répercussions des mises à jour de la source dans le premier niveau de la structure d’index et ensuite propage ses modifications si nécessaires aux niveaux supérieurs. Pour la manipulation des sources de données RDF, notre algorithme utilise le moteur de recherche sémantique CORESE/KGRAM de (Corby, 2008) par l’intermédiaire de son API. Nous avons testé notre algorithme en générant des structures d’index à partir de plusieurs sources de données RDF choisies pour la diversité des motifs de graphes qu’elles contiennent.