Thèse soutenue

Des lacs de données à l’analyse assistée de documents textuels et tabulaires

FR  |  
EN
Auteur / Autrice : Pegdwendé Sawadogo
Direction : Jérôme Darmont
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/10/2021
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : Equipe de recherche : Entrepôts, Représentation et Ingénierie des Connaissances
établissement opérateur d'inscription : Université Lumière (Lyon ; 1969-....)
Laboratoire : Entrepôts- Représentation et Ingénierie des Connaissances / ERIC
Jury : Président / Présidente : Sabine Loudcher Rabaseda
Examinateurs / Examinatrices : Martine Girod-Séville, Esteban Zimányi, Ioana Gabriela Manolescu Goujot
Rapporteurs / Rapporteuses : Franck Ravat, Anne Laurent

Résumé

FR  |  
EN

Au cours de la dernière décennie, le concept de lac de données (data lake) a émergé comme une alternative aux entrepôts de données pour le stockage et l'analyse des mégadonnées (big data). Les lacs de données adoptent une approche de stockage sans schéma fixe pour fournir un système d'aide à la décision souple et extensible. Concevoir un lac de données requiert avant tout de mettre en place un système de métadonnées efficace. En l'absence d'un schema fixe de données, les métadonnées sont en effet essentielles pour supporter les analyses et empêcher ainsi le lac de se transformer en marécage de données (data swamp), c'est-à-dire un lac de données inutilisable.Si la littérature semble unanime sur l'importance du système de métadonnées, des interrogations et des incertitudes subsistent toutefois sur la méthodologie à suivre pour le mettre en œuvre. Plusieurs approches ont été proposées pour organiser les métadonnées dans les lacs de données, mais la plupart d'entre elles ne supportent pas d'analyses industrialisées comme dans les entrepôts de données. Par ailleurs, une part non négligeable de la littérature limite l'accès au lac de données aux seuls spécialistes du traitement de données (data scientists), excluant ainsi les experts métiers. De plus, la grande majorité des approches existantes d'organisation des métadonnées dans les lacs de données concerne uniquement les données structurées et semi-structurées. Concevoir un système de métadonnées supportant à la fois des analyses industrialisées et des données non structurées est donc encore une question de recherche ouverte.C'est dans ce contexte que nous proposons à travers cette thèse un ensemble de contributions à la littérature sur la conception et la mise en ÷œuvre de lacs de données. Nos contributions se déclinent en trois axes. Le premier axe se consacre à la désambiguïsation du concept de lac de données. Les lacs de données étaient en effet encore relativement nouveaux et mal maîtrisés au début de cette thèse. Pour remédier à cela, nous avons proposé une nouvelle définition des lacs de données, ainsi qu'une analyse des approches de gestion des métadonnées et d'organisation architecturales dans les lacs de données.Un travail exhaustif d'état de l'art nous a permis d'identifier les forces et, surtout, leslimites des approches existantes d'organisation des métadonnées dans les lacs de données. La plupart des approches sont en effet spécifiques à des cas d'usage précis et donc difficilement réutilisables. Les seules approches génériques sont elles aussi limitées non seulement par rapport aux types de données pris en charge, mais aussi en termes de fonctionnalités supportées. Nous remédions à ces insuffisances en introduisant deux modèles de métadonnées nommés MEDAL et goldMEDAL.Nous avons enfin abordé les problématiques liées à la mise en ÷œuvre effective de lacs de données. Pour ce faire, nous avons proposé une implémentation de lac de données intitulée AUDAL, qui supporte des documents textuels et tabulaires. Ce système basé sur le modèle MEDAL propose un ensemble de services d'analyses extensibles adaptés aux utilisateurs métiers. Pour évaluer AUDAL, nous proposons et mettons en œuvre un banc d'essais dédié à l'évaluation quantitative des performances des lacs de données, nommé DLBench. Cette évaluation quantitative, complétée par une évaluation qualitative (expérience-utilisateur) démontrent l'efficacité et l'utilisabilité d'AUDAL.