Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes
Auteur / Autrice : | Houda Zaidi |
Direction : | Yann Pollet, Naoufel Kraiem, Faouzi Boufares |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 01/02/2017 |
Etablissement(s) : | Paris, CNAM en cotutelle avec École Nationale des Sciences de l'Informatique (La Manouba, Tunisie) |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Centre d'études et de recherche en informatique et communications (Paris) - Laboratoire RIADI (La Manouba) |
Jury : | Président / Présidente : Kamel Barkaoui |
Examinateurs / Examinatrices : Rébecca Deneckere, Alain Cardon | |
Rapporteurs / Rapporteuses : Christophe Cérin, Minyar Sassi Hidri |
Mots clés
Résumé
La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés.