Thèse soutenue

Exploration de sources de données RDF

FR  |  
EN
Auteur / Autrice : Mohamad Rihany
Direction : Zoubida KedadStéphane Lopes
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/03/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Données et algorithmes pour une ville intelligente et durable (Versailles ; 2015-...) - Données et algorithmes pour une ville intelligente et durable (Versailles ; 2015-...)
Equipe de recherche : ADAM
référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Yolaine Bourda
Examinateurs / Examinatrices : Zoubida Kedad, Amel Bouzeghoub, Elisabeth Métais, José Antonio Fernandes De Macêdo
Rapporteurs / Rapporteuses : Amel Bouzeghoub, Elisabeth Métais

Résumé

FR  |  
EN

Un nombre croissant de sources de données sont publiées sur le web, exprimées dans les langages proposés par le W3C comme RDF, RDF (S) et OWL. Ces sources représentent un volume de données sans précédent disponible pour les utilisateurs et les applications. Afin d’identifier les sources les plus pertinentes et de les utiliser, il est nécessaire d’en connaître le contenu, par exemple au moyen de requêtes écrites en Sparql, le langage d’interrogation proposé par le W3C pour les sources de données RDF. Mais cela nécessite, en plus de la maîtrise du langage Sparql, de disposer de connaissances sur le contenu de la source en termes de ressources, classes ou propriétés qu’elle contient. L’objectif de ma thèse est d’étudier des approches permettant de fournir un support à l’exploration d’une source de données RDF. Nous avons proposé deux approches complémentaires, la recherche mots-clés et le résumé d’un graphe RDF.La recherche mots-clés dans un graphe RDF renvoie un ou plusieurs sous-graphes en réponse à une requête exprimée comme un ensemble de termes à rechercher. Chaque sous-graphe est l’agrégation d’éléments extraits du graphe initial, et représente une réponse possible à la requête constituée par un ensemble de mots-clés. Les sous-graphes retournés peuvent être classés en fonction de leur pertinence. La recherche par mot-clé dans des sources de données RDF soulève les problèmes suivants : (i) l’identification pour chaque mot-clé de la requête des éléments correspondants dans le graphe considéré, en prenant en compte les différences de terminologies existant entre les mots-clés et les termes utilisés dans le graphe RDF, (ii) la combinaison des éléments de graphes retournés pour construire un sous-graphe résultat en utilisant des algorithmes d’agrégation capable de déterminer la meilleure façon de relier les éléments du graphe correspondant à des mots-clés, et enfin (iii), comme il peut exister plusieurs éléments du graphe qui correspondent à un même mot-clé, et par conséquent    plusieurs sous-graphes résultat, il s’agit d’évaluer la pertinence de ces sous-graphes par l’utilisation de métriques appropriées. Dans notre travail, nous avons proposé une approche de recherche par mot-clé qui apporte des solutions aux problèmes ci-dessus.Fournir une vue résumée d’un graphe RDF peut être utile afin de déterminer si ce graphe correspond aux besoins d’un utilisateur particulier en mettant en évidence ses éléments les plus importants ; une telle vue résumée peut faciliter l’exploration du graphe. Dans notre travail, nous avons proposé une approche de résumé originale fondée sur l’identification des thèmes sous-jacents dans un graphe RDF. Notre approche de résumé consiste à extraire ces thèmes, puis à construire le résumé en garantissant que tous les thèmes sont représentés dans le résultat. Cela pose les questions suivantes : (i) comment identifier les thèmes dans un graphe RDF ? (ii) quels sont les critères adaptés pour identifier les éléments les plus pertinents dans les sous-graphes correspondants à un thème ? (iii) comment connecter les éléments les plus pertinents pour créer le résumé d’une thème ? et enfin (iv) comment générer un résumé pour le graphe initial à partir des résumés de thèmes ? Dans notre travail, nous avons proposé une approche qui fournit des réponses à ces questions et qui produit une représentation résumée d’un graphe RDF garantissant que chaque thème y est représenté proportionnellement à son importance dans le graphe initial.