Thèse soutenue

Modèle multidimensionnel agile pour les données massives

FR  |  
EN
Auteur / Autrice : Redha Benhissen
Direction : Fadila BentayebOmar Boussaid
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/12/2023
Etablissement(s) : Lyon 2
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Entrepôts, Représentation et Ingénierie des Connaissances
Jury : Président / Présidente : Olivier Teste
Examinateurs / Examinatrices : Veronika del Carmen Peralta Costabel
Rapporteur / Rapporteuse : Laurent D'Orazio, Samira Si-Said Cherfi

Résumé

FR  |  
EN

La thèse intitulée « Modèle Multidimensionnel Agile pour les Données Massives » explore le défi inhérent à l'analyse et à l'évolution des Big Data dans le contexte des entreprises modernes. L'avancée rapide des technologies d'analyse des Big Data, telles que la Business Intelligence (BI), l'apprentissage automatique et l'intelligence artificielle, a un impact profond sur le processus de prise de décision au sein des entreprises. Cette évolution pousse les entreprises à repenser leurs architectures d'information afin de gérer et d'analyser des volumes massifs de données. Les entrepôts de données jouent un rôle central dans cette transformation, en facilitant l'exploration et l'analyse approfondie des données.Cependant, les modèles multidimensionnels traditionnels présentent des limites face à la diversité et à l'évolution des sources de données ainsi qu'aux besoins changeants d'analyse. C'est dans ce contexte que cette thèse propose le modèle multidimensionnel agile à base de graphes, nommé GAMM. Les objectifs de la thèse consistent à rendre les modèles multidimensionnels plus flexibles, à gérer l'évolution des schémas et des données, et à automatiser ce processus tout en préservant la cohérence des analyses.Trois contributions majeures ont été apportées. La première contribution se concentre sur l'évolution des schémas multidimensionnels. Le modèle GAMM est développé pour permettre l'évolution des schémas sous forme de versions multiples, en utilisant une base de données orientée graphe de type NoSQL pour une flexibilité accrue. Chaque version de schéma est associée à un intervalle de temps, facilitant la navigation à travers les différentes versions. La deuxième contribution traite de la gestion temporelle des données dans les entrepôts de données multi-versions. L'aspect temporel est introduit pour conserver l'historique d'évolution des données, y compris les modifications au niveau des dimensions. Des étiquetages temporels sont utilisés pour assurer la cohérence des analyses au fil du temps. La troisième contribution consiste en l'automatisation de l'évolution des schémas. Des techniques d'exploration de données sont intégrées pour détecter automatiquement des schémas multidimensionnels à partir de diverses sources de données. Cette automatisation améliore l'efficacité et la précision de la gestion de l'évolution des schémas, tout en facilitant la création de niveaux de hiérarchie sur plusieurs dimensions. Cette approche automatisée rend les analyses multidimensionnelles plus pertinentes et précises pour la prise de décision.Les travaux développés dans le cadre de cette thèse proposent une approche novatrice pour l'évolution des entrepôts de données multidimensionnels dans un environnement de Big Data. Le modèle proposé permet d'intégrer de nouvelles sources de données, de s'adapter aux besoins d'analyse changeants, et de préserver l'historique de ces évolutions. Il offre ainsi une solution élégante pour la flexibilité et la cohérence des schémas et des données dans un environnement en constante évolution.