Discovering data quality rules in a master data management context

Thierno Mahamoudou Diallo

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Fouille de règles de qualité de données dans un contexte de gestion de données de référence

FR |

EN

Auteur / Autrice :	Thierno Mahamoudou Diallo
Direction :	Jean-Marc Petit, Sylvie Servigne
Type :	Thèse de doctorat
Discipline(s) :	Informatiques
Date :	Soutenance le 17/07/2013
Etablissement(s) :	Lyon, INSA
Ecole(s) doctorale(s) :	École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....)
Jury :	Président / Présidente : Dominique Laurent
	Examinateurs / Examinatrices : Jean-Marc Petit, Sylvie Servigne, Dominique Laurent, Laure Berti-Équille, Bart Goethals, Martial Doré
	Rapporteurs / Rapporteuses : Laure Berti-Équille, Bart Goethals

Mots clés

FR |

EN

Mots clés contrôlés

Fouille de données

Mots clés libres

Informatique

Fouille de données

Qualité des données

Dépendance de données

Contraintes

Gestion de données de références

Résumé

FR |

EN

Le manque de qualité des données continue d'avoir un impact considérable pour les entreprises. Ces problèmes, aggravés par la quantité de plus en plus croissante de données échangées, entrainent entre autres un surcoût financier et un rallongement des délais. De ce fait, trouver des techniques efficaces de correction des données est un sujet de plus en plus pertinent pour la communauté scientifique des bases de données. Par exemple, certaines classes de contraintes comme les Dépendances Fonctionnelles Conditionnelles (DFCs) ont été récemment introduites pour le nettoyage de données. Les méthodes de nettoyage basées sur les CFDs sont efficaces pour capturer les erreurs mais sont limitées pour les corriger . L’essor récent de la gestion de données de référence plus connu sous le sigle MDM (Master Data Management) a permis l'introduction d'une nouvelle classe de règle de qualité de données: les Règles d’Édition (RE) qui permettent d'identifier les attributs en erreur et de proposer les valeurs correctes correspondantes issues des données de référence. Ces derniers étant de très bonne qualité. Cependant, concevoir ces règles manuellement est un processus long et coûteux. Dans cette thèse nous développons des techniques pour découvrir de manière automatique les RE à partir des données source et des données de référence. Nous proposons une nouvelle sémantique des RE basée sur la satisfaction. Grace à cette nouvelle sémantique le problème de découverte des RE se révèle être une combinaison de la découverte des DFCs et de l'extraction des correspondances entre attributs source et attributs des données de référence. Nous abordons d'abord la découverte des DFCs, en particulier la classe des DFCs constantes très expressives pour la détection d'incohérence. Nous étendons des techniques conçues pour la découverte des traditionnelles dépendances fonctionnelles. Nous proposons ensuite une méthode basée sur les dépendances d'inclusion pour extraire les correspondances entre attributs source et attributs des données de référence avant de construire de manière automatique les RE. Enfin nous proposons quelques heuristiques d'application des ER pour le nettoyage de données. Les techniques ont été implémenté et évalué sur des données synthétiques et réelles montrant la faisabilité et la robustesse de nos propositions.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Fouille de règles de qualité de données dans un contexte de gestion de données de référence

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Fouille de règles de qualité de données dans un contexte de gestion de données de référence

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses