Thèse en cours

Nettoyage des données pour apprentissage automatique

FR  |  
EN
Auteur / Autrice : Nikolaos Myrtakis
Direction : Vassilis ChristophidesIoannis Tsamardinos
Type : Projet de thèse
Discipline(s) : Stic - ed em2psi
Date : Inscription en doctorat le 01/02/2021
Etablissement(s) : CY Cergy Paris Université en cotutelle avec Université de Crète
Ecole(s) doctorale(s) : Ecole doctorale Économie, Management, Mathématiques , Physique et Sciences Informatiques (EM2PSI)
Partenaire(s) de recherche : Laboratoire : Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise, Val d'Oise)

Résumé

FR  |  
EN

L'objectif principal du nettoyage automatisé des données est de renoncer au nettoyage non ciblé de toutes les données et valeurs qui n'affectent pas le modèle d'apprentissage automatique final, avant de transmettre les données aux algorithmes d'apprentissage dans une étape ultérieure indépendante. Au lieu de cela, l'objectif est de concevoir des algorithmes de nettoyage compatibles avec les modèles qui exploitent l'interaction avec les algorithmes d'apprentissage de modèles pour identifier à la fois les exemples de formation, ainsi que les fonctionnalités qui sont potentiellement «sales» et nécessitent une action de nettoyage. . Une fois que les exemples de formation et les valeurs de fonctionnalités à nettoyer ont été identifiés, concevoir des actions appropriées qui gèrent et réparent les valeurs éventuellement erronées. Il y a plusieurs défis et lacunes dans la compréhension théorique, algorithmique et technique à résoudre. L'approche actuelle du processus d'analyse présente les défis suivants: - L'ingénierie des données et la construction de modèles ont été traitées isolément par les deux communautés à l'aide d'étapes séquentielles indépendantes dans les pipelines d'analyse de données. Ainsi, des volumes potentiellement énormes de données sont nettoyés inutilement même lorsqu'ils ne participent pas à la formation du modèle final; de même, une pléthore d'entités est généralement construite même si elles n'ont pas de valeur prédictive et ainsi, elles ne seront pas sélectionnées par l'étape de sélection d'entités. - Le processus doit être répété par essais et erreurs à chaque nouvelle opération de nettoyage ou nouvelle idée de construction de fonctionnalités. Par conséquent, d'énormes volumes de données sont potentiellement extraits encore et encore de la base de données et le processus de modélisation est répété. Un point à souligner est que l'approche susmentionnée ferme la boucle manuellement et non automatiquement. - Le processus concerne toutes les données disponibles; il n'est donc pas évolutif au Big Data. Idéalement, on aimerait ne traiter (automatiquement) que les sous-ensembles de données qui suffisent aux algorithmes de ML pour prendre des décisions robustes Enfin, l'automatisation du pipeline de nettoyage des données pose un défi de taille. Ce défi réside dans les explications qu'un tel système devrait fournir aux analystes concernant ses décisions. Certaines des questions qu'un analyste peut se poser sont: pourquoi un certain exemple de l'ensemble de données a influencé de manière significative le modèle? pourquoi certains exemples ont été étiquetés comme anomalies et donc nettoyés?