Thèse soutenue

Nouvelles méthodes pour l'évaluation, l'évolution et l'interrogation des bases du Web des données

FR  |  
EN
Auteur / Autrice : Pierre Maillot
Direction : Stéphane Loiseau
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/11/2015
Etablissement(s) : Angers
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Etudes et de Recherche en Informatique d'Angers - Laboratoire d'Etude et de Recherche en Informatique d'Angers / LERIA - ESILV - Pôle Universitaire Léonard de Vinci / ESILV - PÔLE UNIVERSITAIRE LÉONARD DE VINCI
Jury : Président / Présidente : Francis Rousseaux
Examinateurs / Examinatrices : Thomas Raimbault, David Genest
Rapporteurs / Rapporteuses : Mohand Saïd Hacid, Juliette Dibie-Barthélemy

Résumé

FR  |  
EN

Le Web des données offre un environnement de partage et de diffusion des données, selon un cadre particulier qui permet une exploitation des données tant par l’humain que par la machine. Pour cela, le framework RDF propose de formater les données en phrases élémentaires de la forme (sujet, relation, objet) , appelées triplets. Les bases du Web des données, dites bases RDF, sont des ensembles de triplets. Dans une base RDF, l’ontologie – données structurelles – organise la description des données factuelles. Le nombre et la taille des bases du Web des données n’a pas cessé de croître depuis sa création en 2001. Cette croissance s’est même accélérée depuis l’apparition du mouvement du Linked Data en 2008 qui encourage le partage et l’interconnexion de bases publiquement accessibles sur Internet. Ces bases couvrent des domaines variés tels que les données encyclopédiques (e.g. Wikipédia), gouvernementales ou bibliographiques. L’utilisation et la mise à jour des données dans ces bases sont faits par des communautés d’utilisateurs liés par un domaine d’intérêt commun. Cette exploitation communautaire se fait avec le soutien d’outils insuffisamment matures pour diagnostiquer le contenu d’une base ou pour interroger ensemble les bases du Web des données. Notre thèse propose trois méthodes pour encadrer le développement, tant factuel qu’ontologique, et pour améliorer l’interrogation des bases du Web des données. Nous proposons d’abord une méthode pour évaluer la qualité des modifications des données factuelles lors d’une mise à jour par un contributeur. Nous proposons ensuite une méthode pour faciliter l’examen de la base par la mise en évidence de groupes de données factuelles en conflit avec l’ontologie. L’expert qui guide l’évolution de cette base peut ainsi modifier l’ontologie ou les données. Nous proposons enfin une méthode d’interrogation dans un environnement distribué qui interroge uniquement les bases susceptibles de fournir une réponse.