Des lacs de données à l’analyse de documents textuels

par Pegdwende Sawadogo

Projet de thèse en Informatique

Sous la direction de Jérôme Darmont.

Thèses en préparation à Lyon , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon , en partenariat avec Entrepôts, Représentation et Ingénierie des Connaissances (laboratoire) depuis le 24-09-2018 .


  • Résumé

    Au cours de la dernière décennie, le concept de lac de données a émergé comme une alternative aux entrepôts de données pour le stockage et l'analyse des megadonnées. Les lacs de données adoptent une approche de stockage sans schéma fixe pour fournir un système d'aide à la décision souple et extensible. En l'absence d'un schéma fixe, l'interrogation et l'exploration des données dépendent alors d'un système de métadonnées qui se doit d'être efficace. Cependant, la plupart des travaux existants sur la gestion des métadonnées dans les lacs de données concernent surtout les données structurées et semi-structurées, alors que les megadonnées sont majoritairement non structurées. De plus, il existe dans la littérature peu d'approches permettant de mettre en place des analyses industrialisées à partir d'un lac de données. En réponse à ces problématiques, nous introduisons, implémentons et évaluons dans cette thèse, une approche méthodologique pour permettre l'analyse de données textuelles à partir d'un lac de données grâce à un système efficace de métadonnées.

  • Titre traduit

    Text Data Analysis from Data Lakes


  • Résumé

    Over the last decade, the data lake concept has emerged as an alternative to data warehouses for data storage and analysis. Data lakes adopt a schema-on-read approach to provide a flexible and extendable decision support system. In absence of a fixed schema, data querying and exploration depends on a metadata system. However, most of existing works on metadata management in data lakes mainly focus on structured and semi-structured data, while big data is essentially composed of unstructured data. Moreover, there is little proposed approaches to run industrialized analyses from a data lake. In response to these issues, we introduce, implement and evaluate a methodological approach to enable textual data analysis from data lakes through an efficient metadata system.