Intégration de données basée sur la qualité pour l'enrichissement des sources de données locales dans le Service Lake
Auteur / Autrice : | Hiba Alili |
Direction : | Daniela Grigori, Henda Hadjami Ben Ghezala |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 27/11/2019 |
Etablissement(s) : | Paris Sciences et Lettres (ComUE) en cotutelle avec École Nationale des Sciences de l'Informatique (La Manouba, Tunisie) |
Ecole(s) doctorale(s) : | Ecole doctorale SDOSE (Paris) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris) - Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision / LAMSADE |
établissement de préparation de la thèse : Université Paris Dauphine-PSL (1968-....) | |
Jury : | Président / Présidente : Dimitris Kotzinos |
Examinateurs / Examinatrices : Daniela Grigori, Henda Hadjami Ben Ghezala, Dimitris Kotzinos, Djamal Benslimane, Genoveva Vargas-Solar, Zoubida Kedad, Khalid Belhajjame, Rim Drira | |
Rapporteur / Rapporteuse : Djamal Benslimane, Genoveva Vargas-Solar |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
De nos jours, d’énormes volumes de données sont créés en continu et les utilisateurs s’attendent à ce que ceux-ci soient collectés, stockés et traités quasiment en temps réel. Ainsi, les lacs de données sont devenus une solution attractive par rapport aux entrepôts de données classiques coûteux et fastidieux (nécessitant une démarche ETL), pour les entreprises qui souhaitent stocker leurs données. Malgré leurs volumes, les données stockées dans les lacs de données des entreprises sont souvent incomplètes voire non mises à jour vis-à-vis des besoins (requêtes) des utilisateurs.Les sources de données locales ont donc besoin d’être enrichies. Par ailleurs, la diversité et l’expansion du nombre de sources d’information disponibles sur le web a rendu possible l’extraction des données en temps réel. Ainsi, afin de permettre d’accéder et de récupérer l’information de manière simple et interopérable, les sources de données sont de plus en plus intégrées dans les services Web. Il s’agit plus précisément des services de données, y compris les services DaaS du Cloud Computing. L’enrichissement manuel des sources locales implique plusieurs tâches fastidieuses telles que l’identification des services pertinents, l’extraction et l’intégration de données hétérogènes, la définition des mappings service-source, etc. Dans un tel contexte, nous proposons une nouvelle approche d’intégration de données centrée utilisateur. Le but principal est d’enrichir les sources de données locales avec des données extraites à partir du web via les services de données. Cela permettrait de satisfaire les requêtes des utilisateurs tout en respectant leurs préférences en terme de coût d’exécution et de temps de réponse et en garantissant la qualité des résultats obtenus.