Thèse soutenue

Cube de données dynamique pour un espace de données hiérarchique multidimensionnel

FR  |  
EN
Auteur / Autrice : Usman Ahmed
Direction : Anne TchounikineMaryvonne Miquel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 18/02/2013
Etablissement(s) : Lyon, INSA
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Images et Systèmes d'Information / LIRIS
Equipe de recherche : Base de Données
Jury : Président / Présidente : Jean-Marc Petit
Examinateurs / Examinatrices : Anne Tchounikine, Maryvonne Miquel, Jean-Marc Petit, Karine Zeitouni, Ladjel Bellatreche, Franck Ravat, Esteban Zimanyi
Rapporteurs / Rapporteuses : Karine Zeitouni, Ladjel Bellatreche

Résumé

FR  |  
EN

De nombreuses applications décisionnelles reposent sur des entrepôts de données. Ces entrepôts permettent le stockage de données multidimensionnelles historisées qui sont ensuite analysées grâce à des outils OLAP. Traditionnellement, les nouvelles données dans ces entrepôts sont chargées grâce à des processus d’alimentation réalisant des insertions en bloc, déclenchés périodiquement lorsque l’entrepôt est hors-ligne. Une telle stratégie implique que d’une part les données de l’entrepôt ne sont pas toujours à jour, et que d’autre part le système de décisionnel n’est pas continuellement disponible. Or cette latence n’est pas acceptable dans certaines applications modernes, tels que la surveillance de bâtiments instrumentés dits "intelligents", la gestion des risques environnementaux etc., qui exigent des données les plus récentes possible pour la prise de décision. Ces applications temps réel requièrent l’intégration rapide et atomique des nouveaux faits dans l’entrepôt de données. De plus, ce type d’applications opérant dans des environnements fortement évolutifs, les données définissant les dimensions d’analyse elles-mêmes doivent fréquemment être mises à jour. Dans cette thèse, de tels entrepôts de données sont qualifiés d’entrepôts de données dynamiques. Nous proposons un modèle de données pour ces entrepôts dynamiques et définissons un espace hiérarchique de données appelé Hierarchical Hybrid Multidimensional Data Space (HHMDS). Un HHMDS est constitué indifféremment de dimensions ordonnées et/ou non ordonnées. Les axes de l’espace de données sont non-ordonnés afin de favoriser leur évolution dynamique. Nous définissons une structure de regroupement de données, appelé Minimum Bounding Space (MBS), qui réalise le partitionnement efficace des données dans l’espace. Des opérateurs, relations et métriques sont définis pour permettre l’optimisation de ces partitions. Nous proposons des algorithmes pour stocker efficacement des données agrégées ou détaillées, sous forme de MBS, dans une structure d’arbre appelée le DyTree. Les algorithmes pour requêter le DyTree sont également fournis. Les nœuds du DyTree, contenant les MBS associés à leurs mesures agrégées, représentent des sections matérialisées de cuboïdes, et l’arbre lui-même est un hypercube partiellement matérialisé maintenu en ligne à l’aide des mises à jour incrémentielles. Nous proposons une méthodologie pour évaluer expérimentalement cette technique de matérialisation partielle ainsi qu’un prototype. Le prototype nous permet d’évaluer la structure et la performance du DyTree par rapport aux autres solutions existantes. L’étude expérimentale montre que le DyTree est une solution efficace pour la matérialisation partielle d’un cube de données dans un environnement dynamique.