Thèse soutenue

Mary-Morstan : un framework modulaire et multiobjectif pour la configuration automatique d’algorithmes de machine learning

FR  |  
EN
Auteur / Autrice : Laurent Parmentier
Direction : Laetitia JourdanMarie-Eléonore Kessaci
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 06/04/2022
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
Jury : Président / Présidente : Pierre Chainais
Examinateurs / Examinatrices : Olivier Nicol, Jalal Fadili, Marius Lindauer
Rapporteur / Rapporteuse : Germain Forestier, Edward Keedwell

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'utilisation grandissante de solutions d'apprentissage automatique (recommandation de films, reconnaissance du texte, détection de la fraude et ainsi de suite) crée une demande pour avoir des outils plus efficaces. En effet, construire un modèle d'apprentissage automatique est une tâche laborieuse. Le praticien doit formater les données, construire les attributs, sélectionner l'algorithme d'apprentissage automatique adéquat, et régler ses hyperparamètres. Historiquement ces étapes sont manuelles, mais des outils récents appelés AutoML, Automatic Machine Learning, ont vu le jour et proposent de réaliser ces tâches automatiquement. Ainsi, l'AutoML facilite la recherche des modèles et octroie un gain de temps aux experts, et permet également aux non-experts de construire un modèle sans avoir à comprendre les mécanismes sous-jacents. Dans ces travaux, nous analysons les méthodes d'optimisations les plus connues et utilisées par les outils d'AutoML. Lors de notre analyse, nous avons remarqué que parmi ces diverses méthodes, les algorithmes évolutionnaires semblent prometteurs dans la recherche des modèles. Notamment, ils facilitent la configuration de la phase de compromis d’exploration versus exploitation, sont intrinsèquement capables de manipuler toute sorte de candidats (taille fixe ou variable), peuvent aborder plusieurs objectifs et, sont facilement parallélisables. Cependant, ces algorithmes évolutionnaires restent très peu étudiés dans les AutoMLs, en particulier quand cela concerne le choix des composants tels que les mutations ou les algorithmes. Dans ces travaux, nous définissons un framework d'AutoML modulable avec de nouveaux composants. L'objectif est d'étudier l'impact de ces derniers quand ils sont utilisés pour résoudre des problèmes de classification. Par la suite, cela nous a menés au développement d'une méthode qui accélère l'ensemble du processus d'optimisation basé sur les algorithmes évolutionnaires devant traiter d'importants volumes de données. Pour finir, nous proposons une solution qui résout automatiquement le problème de classification des séries temporelles qui, d'après nos connaissances, n'a jamais été étudié auparavant.