L’Apprentissage artificiel au service du profilage des données
Auteur / Autrice : | Marc Chevallier |
Direction : | Faouzi Boufares |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 23/11/2022 |
Etablissement(s) : | Paris 13 |
Ecole(s) doctorale(s) : | École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....) |
Jury : | Président / Présidente : Younès Bennani |
Examinateurs / Examinatrices : Younès Bennani, Mohamed Quafafou, Gilles Bernard, Nistor Grozavu, Nicoleta Rogovschi, Charly Clairmont | |
Rapporteur / Rapporteuse : Mohamed Quafafou, Gilles Bernard |
Mots clés
Résumé
La transformation digitale qui s’est effectuée de manière rapide aux cours des dernières décennies au sein des entreprises a donné lieu à une production massive de données. Une fois les problèmes liés au stockage de ces données résolus, leur utilisation au sein de la Business Intelligence (BI) ou du Machine Learning (ML) est devenue un objectif majeur des entreprises afin de rentabiliser leurs données. Mais l’exploitation de ces données s’avère complexe car elles sont très peu documentées et contiennent très souvent de nombreuses erreurs. C’est dans ce contexte que les domaines du profilage des données et de la qualité des données (QD) ont pris de plus en plus d’importance, le profilage ayant pour but d’extraire des métadonnées informatives sur les données et la qualité des données de quantifier les erreurs dans les données. Le profilage étant un prérequis à la qualité des données nous avons concentré nos travaux sur ce sujet au travers de l’utilisation de vecteurs de métadonnées issu d’action de profilage simple. Ces vecteurs d’informations simples nous ont permis de réaliser des tâches de profilage avancées, en particulier la prédiction de type sémantique complexe au moyen d’algorithmes d’apprentissage artificiel. Les vecteurs de métadonnées que nous avons utilisés sont de grande taille et sont donc affectés par la malédiction de la grande dimension. Ce terme regroupe un ensemble de problèmes de performance survenant en apprentissage artificiel quand le nombre de dimensions du problème augmente. Une méthode pour résoudre ces problèmes est d’utiliser des algorithmes génétiques pour sélectionner un sous-ensemble de dimensions ayant de bonnes propriétés. Dans ce cadre nous avons proposé des améliorations : d’une part, une initialisation non aléatoire des individus composant la population initiale de l’algorithme génétique, d’autre part, des modifications pour l’algorithme génétique avec des mutations agressives afin d’améliorer ses performances (GAAM).