Évolution des alignements d'ontologies et de l'interconnexion de données sur le web

par Adam Sanchez

Projet de thèse en Mathématiques et Informatique

Sous la direction de Jérôme Euzenat et de Jérôme David.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de EXMO - Echanges de connaissance structurée médiatisées par ordinateur. (equipe de recherche) depuis le 13-01-2014 .


  • Résumé

    L'initiative de données liées vise à publier des données structurées et liées à l'échelle du Web en utilisant les technologies du web sémantique. Ces technologies offrent différentes langues pour exprimer les données sous forme de graphes (RDF), décrivant son organisation grâce à des ontologies (OWL) et l'interrogeant (SPARQL). Les données liées facilitent la mise en œuvre d'applications qui réutilisent des données distribuées sur le web. Jusqu'à présent, l'accès aux données sur le Web repose sur API Web limité qui fournit des interfaces propriétaires et les formats de données. Alors, les programmeurs doivent construire une solution personnalisée pour chaque source de données. Pour faciliter l'interopérabilité entre les applications, les données émises par différents fournisseurs doivent être liées, à savoir, la même entité dans différents ensembles de données doit être identifié. Toutefois, dans un système hétérogène comme le web, il n'y a aucune raison que les deux organisations (ou fournisseurs) utilisent les mêmes ontologies pour exprimer leurs données ou utiliser la même clé pour identifier les entités. L'un des principaux défis des données liées est d'être en mesure de faire face à cette hétérogénéité par la découverte de liens entre les ensembles de données, mais aussi entre les alignements d'ontologies. Jusqu'à présent, ces deux problèmes ont été principalement étudiés séparément, même si certains approches profitent des alignements et certains méthodes ontologie utilisent des instances communes pour comparer extensions de concepts. Dans un environnement aussi dynamique que le web, les ontologies et les données évoluent, puis alignements d'ontologies et les liens entre les données doivent évoluer aussi. Depuis alignements et les liens ne devraient pas être recalculés chaque fois qu'un changement se produit, le web sémantique a besoin de méthodes qui tiennent compte de l'évolution. L'objectif de cette thèse est d'étudier comment faire évoluer les alignements et les liens lorsque les ontologies et les données se changent. L'approche suivie devra tenir compte de la dépendance entre les alignements d'ontologies et les liens entre les données. Avec une telle approche, il sera par exemple possible d'induire de nouvelles correspondances entre les entités de l'ontologie en utilisant de nouveaux liens et / ou décider que certaines correspondances ne sont plus valables. Respectivement, en ajoutant ou en supprimant des correspondances va aider à valider (ou invalider) les liens entre les instances en utilisant la sémantique des alignements. Compte tenu de la taille croissante des ensembles de données, un autre aspect important du travail est de permettre l'évolutivité des méthodes et des outils par la conception de stratégies d'élagage et / ou segmentation efficace.

  • Titre traduit

    Ontology alignment and data interlinking evolution on the web of data


  • Résumé

    The linked data initiative aims at publishing structured and interlinked data at web scale by using semantic web technologies. These technologies provide different languages for expressing data as graphs (RDF), describing its organization through ontologies (OWL) and querying it (SPARQL). Linked data facilitates the implementation of applications that reuse data distributed on the web. Until now, the access to data on the web relies on limited Web APIs which provide proprietary interfaces and data formats. Programmers have then to build custom solution for each data source. To facilitates interoperability between application, data issued by different providers has to be interlinked, i.e., the same entity in different data sets must be identified. However, in a heterogeneous system such as the web, there is no reason that two organizations (or providers) make use of the same ontologies to express their data or use the same key to identify entities. One of the key challenge of linked data is to be able to deal with this heterogeneity by discovering links across datasets, but also alignments between ontologies. Until now these two problems have been mainly studied separately, even if some linking approaches take advantage of alignments and ontology matching methods uses common instances to compare concept extensions. In such a dynamic environment as the web, ontologies and data evolve, and then ontology alignments and links between data have to evolve too. Since alignments and links should not be recomputed each time a change occurs, the semantic web needs methods that consider the evolution. The goal of this PhD is to study how to evolve alignments and links when ontologies and data change. The followed approach will have to consider the dependency between ontology alignments and links between data. With such an approach, it will be for instance possible to induce new correspondences between ontology entities by using new links and/or decide that some correspondences are not valid anymore. Respectively, adding or removing correspondences will helps to validate (or invalidate) links between instances by using the semantics of alignments. Given the increasing size of datasets, another important aspect of the work is to enable the scalability of the methods and tools by designing efficient pruning and/or segmentation strategies.