Thèse soutenue

Business Intelligence : vers un ETL à la demande sur des bases de données orientées documents

FR  |  
EN
Auteur / Autrice : Manel Souibgui
Direction : Samira Si-Said CherfiSadok Ben YahiaFaten Atigui
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/12/2022
Etablissement(s) : Paris, HESAM en cotutelle avec Université Tunis El Manar. Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis (Tunisie)
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur (Paris)
Partenaire(s) de recherche : Laboratoire : Centre d'études et de recherche en informatique et communications (Paris) - Centre d'études et de recherche en informatique et communications / CEDRIC
établissement de préparation de la thèse : Conservatoire national des arts et métiers (France ; 1794-....)
Jury : Président / Présidente : Nedra Mellouli
Examinateurs / Examinatrices : Samira Si-Said Cherfi, Sadok Ben Yahia, Faten Atigui, Nedra Mellouli, Jérôme Darmont, Mohamed Mohsen Gammoudi, Olivier Teste, Fatma Abdelhédi
Rapporteurs / Rapporteuses : Jérôme Darmont, Mohamed Mohsen Gammoudi, Olivier Teste

Résumé

FR  |  
EN

L'émergence des données issues du web et de ses corollaires entraîne une révolution digitale qui touche tous les aspects d'une entreprise. L'évolution de ces données en terme de volume, variété et vélocité explique la nécessité d'intégrer dans les systèmes existants des services axés sur le Big Data. Dans les systèmes Business Intelligence & Analytics (BI&A), les décideurs utilisent les bases de données (BD) pour extraire des informations pertinentes afin d'améliorer la prise de décision. Ces systèmes sont aussi impactés par cette révolution digitale. En effet, à l'ère du Big Data, les BD NoSQL sont devenues omniprésentes en tant que systèmes hautement extensibles et sans schéma pour stocker des données de volume, variété et vélocité importants. Quoique NoSQL est largement utilisé aujourd'hui, son exploitation est limitée dans le cadre de la BI&A qui reste, pendant de longues années, liée essentiellement aux systèmes de gestion de BD conventionnels telles que les BD relationnelles.En revanche, dès les premiers jours de l'entreposage des données, le modèle relationnel a été fondamental dans la quête de la cohérence et de la qualité des données analytiques dans les systèmes BI&A. Pour obtenir de meilleures performances, le modèle NoSQL offre une grande variété structurelle et une flexibilité accrue de schémas et abandonne certaines règles comme les contraintes d'intégrité. Par conséquent, l'exploitation des données sans schéma, et souvent sans contraintes d'intégrité pour la prise de décision nécessite de revoir toutes les phases de l'architecture BI&A, notamment le processus Extract-Transform-Load (ETL) afin de les adapter au volume, variété et vélocité des données, telles que les BD orientées documents.À titre d'exemple, dans le processus ETL, joindre plusieurs collections en l'absence d'un schéma défini au préalable est un défi important. Détecter ces candidats manuellement s'avère laborieux, très coûteux en temps et infaisable dans les ensembles de données à grande échelle.L'objectif principal de cette thèse est d'explorer comment extraire, transformer et charger des BD NoSQL, particulièrement des BD orientées documents, pour des fins décisionnelles ? et comment préparer ces données variées et volumineuses pour répondre aux besoins des décideurs ?Dans un premier temps, nous avons mené une étude approfondie de la littérature sur ces problématiques. Cette revue nous a conduits à introduire une nouvelle approche de BI&A permettant d'extraire, transformer et de charger à la demande les données requises pour l'analyse OLAP à partir de BD orientées documents.Nous nous concentrons sur l'ETL à la demande où, contrairement aux travaux existants, nous considérons la dispersion des données sur deux ou plusieurs dans les BD orientées documents. Dans un second temps, nous étudions le problème de la découverte automatique des attributs clés de jointure. Nous proposons un algorithme qui vise à détecter automatiquement les identifiants et les références composés et non composés à partir de plusieurs sources de données orientées documents.L'approche est basée sur des caractéristiques et des règles d'élagage pour trouver les identifiants candidats. Pour trouver les pairs (identifiant, référence) entre chaque deux collections, nous avons mis en pratique node2vec, technique de plongement de réseau qui offre des avantages significatifs en utilisant les similarités syntaxiques et sémantiques. Pour illustrer notre étude, nous avons développé des prototypes comportant les deux niveaux : (i) détection des identifiants candidats ; et (ii) identification des paires candidates des attributs clés. L'étude expérimentale est basée sur deux benchmarks TPC-H et TPC-E et deux sources de données réelles Twitter et Musicians. Nous présentons les résultats qui montrent la faisabilité et la pertinence de notre approche et nous discutons les défis à relever dans nos travaux futurs.