Thèse soutenue

Découverte de schéma pour les données du Web sémantique

FR  |  
EN
Auteur / Autrice : Kenza Kellou-Menouer
Direction : Zoubida Kedad
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/10/2017
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Données et algorithmes pour une ville intelligente et durable (Versailles ; 2015-...) - Données et algorithmes pour une ville intelligente et durable - DAVID / DAVID
: Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
Jury : Président / Présidente : Yamine Aït-Ameur
Examinateurs / Examinatrices : Florent Masseglia, Fatiha Sais
Rapporteur / Rapporteuse : Isabelle Comyn-Wattiau, Mohand Saïd Hacid

Résumé

FR  |  
EN

Un nombre croissant de sources de données interconnectées sont publiées sur le Web. Cependant, leur schéma peut êtreincomplet ou absent. De plus, les données ne sont pas nécessairement conformes au schéma déclaré. Ce qui rend leur exploitation complexe. Dans cette thèse, nous proposons une approche d’extraction automatique et incrémentale du schéma d’une source à partir de la structure implicite de ses données. Afin decompléter la description des types découverts, nous proposons également une approche de découverte des patterns structurels d’un type. L’approche procède en ligne sans avoir à télécharger ou à parcourir la source. Ce quipeut être coûteux voire impossible car les sources sont interrogées à distance et peuvent imposer des contraintes d’accès, notamment en termes de temps ou de nombre de requêtes. Nous avons abordé le problème de l’annotationafin de trouver pour chaque type un ensemble de labels permettant de rendre compte de sonsens. Nous avons proposé des algorithmes d’annotation qui retrouvent le sens d’un type en utilisant des sources de données de références. Cette approche s’applique aussi bien pour trouver des noms pertinents pour les typesdécouverts que pour enrichir la description des types existants. Enfin, nous nous sommes intéressés à caractériser la conformité entre les données d’une source et le schéma qui les décrit. Nous avons proposé une approche pour l'analyse et l'amélioration de cette conformité et nous avons proposé des facteurs de qualité, les métriques associées, ainsi qu'une extension du schéma permettant de refléter l'hétérogénéité entre les instances d'un type.