Concise Pattern Learning for RDF Data Sets Interlinking

par Zhengjie Fan

Thèse de doctorat en Informatique

Sous la direction de Jérôme Euzenat et de François Scharffe.

Le président du jury était Éric Gaussier.

Le jury était composé de Zohra Bellahsene.

Les rapporteurs étaient Chantal Reynaud, Christel Vrain.

  • Titre traduit

    Apprentissage de motifs concis pour le liage de données RDF


  • Résumé

    De nombreux jeux de données sont publiés sur le web à l’aide des technologies du web sémantique. Ces jeux de données contiennent des données qui représentent des liens vers des ressources similaires. Si ces jeux de données sont liés entre eux par des liens construits correctement, les utilisateurs peuvent facilement interroger des données à travers une interface uniforme, comme s’ils interrogeaient un jeu de données unique. Mais, trouver des liens corrects est très difficile car de nombreuses comparaisons doivent être effectuées. Plusieurs solutions ont été proposées pour résoudre ce problème : (1) l’approche la plus directe est de comparer les valeurs d’attributs d’instances pour identifier les liens, mais il est impossible de comparer toutes les paires possibles de valeurs d’attributs. (2) Une autre stratégie courante consiste à comparer les instances selon les attribut correspondants trouvés par l’alignement d’ontologies à base d’instances, qui permet de générer des correspondances d’attributs basés sur des instances. Cependant, il est difficile d’identifier des instances similaires à travers les ensembles de données car,dans certains cas, les valeurs des attributs en correspondance ne sont pas les mêmes.(3) Plusieurs méthodes utilisent la programmation génétique pour construire des modèles d’interconnexion afin de comparer différentes instances, mais elles souffrent de longues durées d’exécution.Dans cette thèse, une méthode d’interconnexion est proposée pour relier les instances similaires dans différents ensembles de données, basée à la fois sur l’apprentissage statistique et sur l’apprentissage symbolique. L’entrée est constituée de deux ensembles de données, des correspondances de classes sur les deux ensembles de données et un échantillon de liens “positif” ou “négatif” résultant d’une évaluation de l’utilisateur. La méthode construit un classifieur qui distingue les bons liens des liens incorrects dans deux ensembles de données RDF en utilisant l’ensemble des liens d’échantillons évalués. Le classifieur est composé de correspondances d’attributs entre les classes correspondantes et de deux ensembles de données,qui aident à comparer les instances et à établir les liens. Le classifieur est appelé motif d’interconnexion dans cette thèse. D’une part, notre méthode découvre des correspondances potentielles entre d’attributs pour chaque correspondance de classe via une méthode d’apprentissage statistique : l’algorithme de regroupement K-medoids,en utilisant des statistiques sur les valeurs des instances. D’autre part, notre solution s’appuie sur un modèle d’interconnexion par une méthode d’apprentissage symbolique: l’espace des versions, basée sur les correspondances d’attributs potentielles découvertes et l’ensemble des liens de l’échantillon évalué. Notre méthode peut résoudre la tâche d’interconnexion quand il n’existe pas de motif d’interconnexion combiné qui couvre tous les liens corrects évalués avec un format concis.L’expérimentation montre que notre méthode d’interconnexion, avec seulement1% des liens totaux dans l’échantillon, atteint une F-mesure élevée (de 0,94 à 0,99).


  • Résumé

    There are many data sets being published on the web with Semantic Web technology. The data sets usually contain analogous data which represent the similar resources in the world. If these data sets are linked together by correctly identifying the similar instances, users can conveniently query data through a uniform interface, as if they are connecting a single database. However, finding correct links is very challenging because web data sources usually have heterogeneous ontologies maintained by different organizations. Many existing solutions have been proposed for this problem. (1) One straight-forward idea is to compare the attribute values of instances for identifying links, yet it is impossible to compare all possible pairs of attribute values. (2) Another common strategy is to compare instances with correspondences found by instance-based ontology matching, which can generate attribute correspondences based on overlapping ranges between two attributes, while it is easy to cause incomparable attribute correspondences or undiscovered comparable attribute correspondences. (3) Many existing solutions leverage Genetic Programming to construct interlinking patterns for comparing instances, however the running times of the interlinking methods are usually long. In this thesis, an interlinking method is proposed to interlink instances for different data sets, based on both statistical learning and symbolic learning. On the one hand, the method discovers potential comparable attribute correspondences of each class correspondence via a K-medoids clustering algorithm with instance value statistics. We adopt K-medoids because of its high working efficiency and high tolerance on irregular data and even incorrect data. The K-medoids classifies attributes of each class into several groups according to their statistical value features. Groups from different classes are mapped when they have similar statistical value features, to determine potential comparable attribute correspondences. The clustering procedure effectively narrows the range of candidate attribute correspondences. On the other hand, our solution also leverages a symbolic learning method, called Version Space. Version Space is an iterative learning model that searches for the interlinking pattern from two directions. Our design can solve the interlinking task that does not have a single compatible conjunctive interlinking pattern that covers all assessed correct links with a concise format. The interlinking solution is evaluated with large-scale real-world data from IM@OAEI and CKAN. Experiments confirm that the solution with only 1% of sample links already reaches a high accuracy (up to 0.94-0.99 on F-measure). The F-measure quickly converges improving on other state-of-the-art approaches, by nearly 10 percent of their F-measure values.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.