Linking heterogeneous open data : application to the musical domain
Auteur / Autrice : | Manel Achichi |
Direction : | Zohra Bellahsène |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 15/02/2018 |
Etablissement(s) : | Montpellier |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....) |
Jury : | Président / Présidente : Ollivier Haemmerlé |
Examinateurs / Examinatrices : Zohra Bellahsène, Ollivier Haemmerlé, Mathieu d' Aquin, Catherine Faron, Konstantin Todorov | |
Rapporteur / Rapporteuse : Mathieu d' Aquin, Catherine Faron |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Des milliers d'œuvres musicales sont décrites dans des catalogues des institutions culturelles, dont le rôle est de stocker toutes les créations musicales à travers le catalogage et de les diffuser auprès du grand public. Cette thèse s’inscrit dans le cadre du projet ANR DOREMUS -DOnnées en REutilisation pour la Musique en fonction des USages- qui vise à explorer les métadonnées des catalogues de trois grandes institutions culturelles : Bibliothèque Nationale de France (BNF), Philharmonie de Paris et Radio France afin qu'elles puissent communiquer entre elles et être mieux utilisées par les différents publics. Dans cette thèse, nous nous intéressons aux liens dits d’identité, exprimant une équivalence entre deux ressources différentes décrivant la même entité du monde réel. Notre objectif principal est de proposer une approche de liage générique, traitant certains challenges, avec comme cas concret d’utilisation les données de DOREMUS.Dans cette thèse, nous nous focalisons sur trois principaux challenges : (1) réduire la configuration manuelle de l’outil de liage, (2) faire face à différents types d’hétérogénéité entre les descriptions, et (3) Supprimer l’ambiguïté entre les ressources très similaires dans leur descriptions mais qui ne sont pas équivalentes. Certaines approches de liage demandent souvent l’intervention de l’utilisateur pour configurer certains paramètres. Ceci peut s’avérer être une tâche coûteuse pour l’utilisateur qui peut ne pas être expert du domaine. Par conséquent, une des questions de recherche que nous nous posons est comment réduire autant que possible l’intervention humaine dans le processus de liage des données. De plus, les descriptions des ressources peuvent présenter diverses hétérogénéités qu’un outil doit savoir gérer. Par ailleurs, les descriptions peuvent être exprimées dans différentes langues naturelles, avec des vocabulaires différents ou encore avec des valeurs différentes. La comparaison peut alors s’avérer très difficile en raison des variations selon trois dimensions : basées sur les valeurs, ontologiques et logiques. Dans cette thèse, nous analysons les aspects d’hétérogénéité les plus récurrents en identifiant un ensemble de techniques qui peuvent leur être appliquées. Un autre défi est la distinction entre des descriptions de ressources fortement similaires mais non équivalentes. En leur présence, la plupart des outils existants se voient diminuer leur efficacité en terme de qualité, en générant beaucoup de faux positifs. Dans cette optique, certaines approches ont été proposées pour identifier un ensemble de propriétés discriminatives appelées des clefs. De telles approches découvrent un très grand nombre de clés. La question qui se pose est de savoir si toutes les clés permettent de découvrir les mêmes paires d’instances équivalentes, ou si certaines sont plus significatives que d'autres. Aucune approche ne fournit de stratégie pour classer les clefs générées en fonction de leur efficacité à découvrir les bons liens. Afin d’assurer des alignements de qualité, nous avons proposé dans ce travail une nouvelle approche de liage de données visant à relever les défis décrits ci-dessus.Un outil de liage automatique de données hétérogènes, nommé Legato, qui répond aux challenges évoqués précédemment a été développé. Il est basé sur la notion de profile d’instance représentant chaque ressource comme un document textuel de littéraux gérant une variété d’hétérogénéités de données sans l’intervention de l’utilisateur. Legato implémente également une étape de filtrage de propriétés dites problématiques permettant de nettoyer les données du bruit susceptible de rendre la tâche de comparaison difficile. Pour pallier au problème de distinction entre les ressources similaires dans leur description, Legato implémente un algorithme basé sur la sélection et le ranking des clefs afin d’améliorer considérablement la précision au niveau des liens générés.