Thèse soutenue

Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes

FR  |  
EN
Auteur / Autrice : Houda Zaidi
Direction : Yann PolletNaoufel KraiemFaouzi Boufares
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/02/2017
Etablissement(s) : Paris, CNAM en cotutelle avec École Nationale des Sciences de l'Informatique (La Manouba, Tunisie)
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Centre d'études et de recherche en informatique et communications (Paris) - Laboratoire RIADI (La Manouba)
Jury : Président / Présidente : Kamel Barkaoui
Examinateurs / Examinatrices : Rébecca Deneckere, Alain Cardon
Rapporteurs / Rapporteuses : Christophe Cérin, Minyar Sassi Hidri

Résumé

FR  |  
EN

La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés.