Thèse soutenue

Processus d'ingestion de données hétérogènes et d'assistance au requêtage pour un lac de données médical

FR  |  
EN
Auteur / Autrice : Rym Jemmali
Direction : Gilles ZurfluhFatma Abdelhédi
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 13/12/2023
Etablissement(s) : Université Toulouse Capitole
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Equipe de recherche : Institut de Recherche en Informatique de Toulouse (1995-....)

Résumé

FR  |  
EN

Les avancées technologiques récentes ont permis une explosion des données générées à une échelle sans précédent, ce que l'on appelle communément le « Big Data ». Les entreprises, les organisations et même les particuliers sont confrontés à des volumes massifs de données provenant de sources diverses telles que les réseaux sociaux, les capteurs « IoT », les transactions en ligne, les appareils mobiles, etc. Les techniques standards de traitement, de stockage et d'analyse des données ont été reconsidérées et étendues, voire redéfinies pour prendre en compte des contraintes inhérentes à ce domaine d'étude. Dans ce contexte, les lacs de données ont émergé comme une solution prometteuse pour le stockage et l'exploitation de mégadonnées (big data), en complément aux entrepôts de données. Un lac de données se définit par deux propriétés principales : la variété des données qu'il est capable d'ingérer, et une approche où le schéma des données n'est défini qu'à leur interrogation (schema-on-read). Ces propriétés font qu'un lac de données est un système souple et adaptatif. Cependant, l'hétérogénéité des systèmes de stockage associée à la diversité des contenus du lac de données constitue un obstacle majeur à une exploitation décisionnelle efficace des données. De plus, les systèmes d'aide à la décision traditionnels ne peuvent pas répondre aux demandes croissantes des entreprises modernes pour l'intégration et l'analyse des quantités massives de données générées. Ainsi, il est essentiel de réorganiser ces données sous une forme unifiée. Les outils de stockage actuels offrent peu de mécanismes pour prendre en compte cette hétérogénéité des bases de données tout en garantissant la cohérence des données et, par conséquent, leur qualité. La plupart des organisations doivent donc transformer les données stockées dans des systèmes relationnels en systèmes NoSQL ou « Not only SQL » basés sur des modèles flexibles. Dans ce mémoire, nous proposons des solutions pour permettre à des décideurs (non-informaticiens) de manipuler des données complexes stockées dans des BD hétérogènes. Notre première contribution porte sur l'ingestion des données à partir d'un lac de données en vue de créer une BD appelée entrepôt et destinée à l'analyse décisionnelle. L'ingestion consiste, tout d'abord, à transférer des BD relationnelles et NoSQL extraites du lac de données dans une base de données NoSQL unique (l'entrepôt), ensuite à fusionner des classes dites « similaires » et enfin à convertir les liens sous forme de références entre objets. Pour automatiser ce processus, nous avons utilisé l'architecture MDA (Model Driven Architecture) qui offre un environnement de transformation des schémas. A partir des schémas physiques décrivant un lac de données, nous proposons des règles de transformation qui permettent de créer un entrepôt de données stocké sous un système NoSQL orienté-documents. Cet entrepôt, provenant de l'ingestion de données massives, présente une structure complexe. À ce titre, nous proposons un processus d'assistance aux utilisateurs pour leur faciliter l'accès aux données. Ce processus repose soit sur un système de personnalisation soit sur un système de recommandation qui assistent les décideurs dans leur recherche d'information. Une expérimentation a été réalisée pour une application médicale destinée à une mutuelle de santé.