Caractérisation incrémentale d'une base de triplets RDF

par Adrien Basse

Thèse de doctorat en Informatique

Sous la direction de Fabien Gandon, Isabelle Mirbel et de Moussa Lô.


  • Résumé

    Nombreuses sont les applications web sémantique qui s’intéressent à la problématique de l’intégration de données issues de sources RDF distribuées. Pour l’exécution de requêtes distribuées, par exemple, plusieurs solutions sont ainsi proposées comme SPARQL 1. 1 Federation qui définit un ensemble d’extensions au langage de requête SPARQL. Si ces extensions permettent de déléguer une partie de requête à un ensemble de services, un problème majeur subsiste encore pour déterminer automatiquement en amont les services disposant de réponses pour une requête donnée. La résolution de ce problème est particulièrement cruciale dans un contexte comme le Linking Open Data où de nombreuses sources RDF hétérogènes sont publiées. Pour pouvoir envoyer une requête uniquement aux sources de données concernées, une description complète et compacte de chaque source est nécessaire. Pour connaître le contenu d’une source RDF nous pouvons nous baser sur les motifs de graphes qui la composent. Dans cette thèse, nous nous intéressons à l’extraction de ces motifs de graphes. Nous proposons pour cela une extension du codage DFS (Depth-First Search) de (Yan et Han, 2002) aux motifs de graphes RDF qui sont orientés et étiquetés et une opération de jointure entre codes DFS pour construire itérativement les différents niveaux d’une structure d’index de sources de données RDF. La structure d’index ainsi générée est constituée d’une hiérarchie de graphes RDF et permet d’identifier les types de données contenus dans la source indexée. Le choix du codage DFS pour représenter les motifs de graphe facilite entre autre les tests isomorphes et les opérations de jointure entre motifs de graphe mais pose un réel problème d’exploitation de la structure d’index. En effet, les hiérarchies de codes DFSR issues de processus de construction de structures d’index sont difficiles à lire (succession d’entiers) et à interroger. Pour palier cela, nous proposons une interface de visualisation des structures d’index générées et un ensemble d’algorithmes de transformation des codes DFSR dans des formats comme RDF plus « lisibles » et plus facilement exploitables. L’ajout ou la suppression d’annotations de la source de données RDF peut entraîner des changements dans la structure d’index. A la place d’une reconstruction totale de la structure d’index nous proposons une procédure qui identifie d’abord les répercussions des mises à jour de la source dans le premier niveau de la structure d’index et ensuite propage ses modifications si nécessaires aux niveaux supérieurs. Pour la manipulation des sources de données RDF, notre algorithme utilise le moteur de recherche sémantique CORESE/KGRAM de (Corby, 2008) par l’intermédiaire de son API. Nous avons testé notre algorithme en générant des structures d’index à partir de plusieurs sources de données RDF choisies pour la diversité des motifs de graphes qu’elles contiennent.

  • Titre traduit

    Graph pattern extraction to characterize the content of RDF Triple Stores


  • Résumé

    Many semantics web applications address the issue of integrating data from distributed RDF triple stores. There are several solutions for distributed query processing such as SPARQL 1. 1 Federation, which defines extensions to the SPARQL Query Language to support distributed query execution. Such extensions make it possible to formulate a query that delegates parts of the query to a series of services, but one issue remains : how to automate the selection of RDF triple stores containing relevant data to answer a query. This is especially true in the context of the Linking Open data project where numerous and very heterogeneous datasets are interlinked, allowing for interesting queries across several sources. To decompose and send queries targeting only relevant stores, we need a means to describe each RDF triple store, i. E. An index structure which provides a complete and compact index items. In this thesis we present an approach to extract these graph patterns from RDF triple store. For this purpose, we extend Depth-First search coding (DFS) by (Yan and Han, 2002) to RDF labeled and oriented multigraphs and we provide a join operator between two DFS codes so as to sequentially build the different levels of the index structure. Insertion or deletion of annotations in the triple store may cause changes to the index structure. To handle update in triple store, we proposed a procedure to identify exactly the changes in the first level of the index structure and propagate them to the following levels. The DFSR coding makes it possible for us to efficiently manipulate graph patterns, but is difficult to read (succession of integer number). To facilitate the reading of our index structure, we propose a visualization user-interface and algorithms to turn a DFS code into a more legible format like RDF. Our algorithm relies on the CORESE/KGRAM by (Corby, 2008). We have tested our algorithm on many datasets. During the building f index structures we keep a set of data in order to help us to better understand the progress of our algorithm and improve it.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xiii-158 p.)
  • Annexes : Bibliogr. p. [155]-158. Résumés en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Bibliothèque Sciences.
  • Non disponible pour le PEB
  • Cote : 12NICE4056
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.