Thèse en cours

Exploration orientée utilisateur de données semi-structurées

FR  |  
EN
Auteur / Autrice : Nelly Barret
Direction : Ioana Manolescu
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 01/01/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : LIX - Laboratoire d'informatique
Equipe de recherche : CEDAR

Résumé

FR  |  
EN

La création, l'utilisation et le partage sans précédent des données à travers le monde contribue à de nouvelles applications et opportunités économiques. Ces données sont souvent larges, hétérogènes en schéma et en modèle, et plus ou moins structurées. Pour mettre de l'ordre dans toutes ces données, le consortium du World Wide Web recommande de partager des graphes RDF, ce qui a été majoritairement adopté dans l'Open Data, mais beaucoup d'autres formats sont utilisés en pratique. C'est souvent le cas des journalistes qui récoltent des jeux de données de différents acteurs, qui ne se sont pas coordonnés. Par exemple, on trouve sur la plateforme Kaggle des fichiers CSV recensant les pourcentages obtenus par les candidats aux élections présidentielles françaises ; les déclarations d'intérêt des parlementaires et sénateurs français sont partagées en XML sur le site du gouvernement ; les tweets des personnalités politiques françaises sont disponibles en JSON ; les graphes de propriétés (comme ceux de Neo4J) sont utilisés pour partager les données d'Offshore leaks, une base de données sur les compagnies offshores, dont certaines sont françaises. Dans ce cadre, les journalistes ont cruellement besoin d'outils pour gérer et consolider des sources provenant de différents acteurs, et générer des résultats concrets qu'ils peuvent partager avec leurs collègues ou dans les rédactions. Plus généralement, les utilisateurs et producteurs de données (novices ou non) qui doivent trouver, utiliser et/ou partager des jeux de données se trouvent face à un exercice difficile. C'est pourquoi nous proposons de nouvelles méthodes pour appréhender, utiliser et partager des jeux de données semi-structurées, i.e., documents XML, documents JSON, tableaux CSV, graphes RDF et de propriétés. La motivation principale de ce travail est d'aider les utilisateurs dans leur tâche d'exploration, e.g., comprendre la structure de leurs données, trouver des informations intéressantes dans la masse, pouvoir formuler des requêtes sans grande expertise informatique, recouper plusieurs jeux de données provenant de différents acteurs, etc. Nous proposons une approche unifiée des différents modèles de données; une vue globale que nous pensons nécessaire pour tirer le meilleur de toutes ces données, que ce soit pour des applications journalistiques, rendre la recherche scientifique plus reproductible, etc.