Thèse soutenue

Données en masse et workflows interactifs pour la visualisation analytique

FR  |  
EN
Auteur / Autrice : Wael Khemiri
Direction : Véronique BenzakenJean-Daniel FeketeIoana Gabriela Manolescu Goujot
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/12/2011
Etablissement(s) : Paris 11
Ecole(s) doctorale(s) : Ecole doctorale Informatique de Paris-Sud
Partenaire(s) de recherche : Laboratoire : Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020)
Jury : Président / Présidente : Thérèse Libourel
Examinateurs / Examinatrices : Véronique Benzaken, Jean-Daniel Fekete, Ioana Gabriela Manolescu Goujot, Thérèse Libourel, Guy Melançon, Dominique Laurent, Alain Denise
Rapporteurs / Rapporteuses : Guy Melançon, Dominique Laurent

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

L'expansion du World Wide Web et la multiplication des sources de données (capteurs, services Web, programmes scientifiques, outils d'analyse, etc.) ont conduit à la prolifération de données hétérogènes et complexes. La phase d'extraction de connaissance et de recherche de corrélation devient ainsi de plus en plus difficile.Typiquement, une telle analyse est effectuée en utilisant les outils logiciels qui combinent: des techniques de visualisation, permettant aux utilisateurs d'avoir une meilleure compréhension des données, et des programmes d'analyse qui effectuent des opérations d'analyses complexes et longues.La visualisation analytique (visual analytics) vise à combiner la visualisation des donnéesavec des tâches d'analyse et de fouille. Etant donnée la complexité et la volumétrie importante des données scientifiques (par exemple, les données associées à des processus biologiques ou physiques, données des réseaux sociaux, etc.), la visualisation analytique est appelée à jouer un rôle important dans la gestion des données scientifiques.La plupart des plateformes de visualisation analytique actuelles utilisent des mécanismes en mémoire centrale pour le stockage et le traitement des données, ce qui limite le volume de données traitées. En outre, l'intégration de nouveaux algorithmes dans le processus de traitement nécessite du code d'intégration ad-hoc. Enfin, les plate-formes de visualisation actuelles ne permettent pas de définir et de déployer des processus structurés, où les utilisateurs partagent les données et, éventuellement, les visualisations.Ce travail, à la confluence des domaines de la visualisation analytique interactive et des bases de données, apporte deux contributions. (i) Nous proposons une architecture générique pour déployer une plate-forme de visualisation analytique au-dessus d'un système de gestion de bases de données (SGBD). (ii) Nous montrons comment propager les changements des données dans le SGBD, au travers des processus et des visualisations qui en font partie. Notre approche permet à l'application de visualisation analytique de profiter du stockage robuste et du déploiement automatique de processus à partir d'une spécification déclarative, supportés par le SGBD.Notre approche a été implantée dans un prototype appelé EdiFlow, et validée à travers plusieurs applications. Elle pourrait aussi s'intégrer dans une plate-forme de workflow scientifique à usage intensif de données, afin d'en augmenter les fonctionnalités de visualisation.