Thèse soutenue

Apprentissage profond automatisé : principes et pratique

FR  |  
EN
Auteur / Autrice : Zhengying Liu
Direction : Isabelle GuyonMichèle Sebag
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Informatique
Date : Soutenance le 09/11/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France) - Google Switzerland
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Emmanuel Vazquez
Examinateurs / Examinatrices : Florence d' Alché-Buc, Yves Grandvalet, Joaquin Vanschoren, Jan van Rijn, Hugo Jair Escalante
Rapporteurs / Rapporteuses : Florence d' Alché-Buc, Yves Grandvalet

Résumé

FR  |  
EN

L'apprentissage automatique automatisé (AutoML) vise à rendre l'application des méthodes d'apprentissage automatique (ML) aussi dépourvue d'intervention humaine que possible. Cet objectif ambitieux a fait l'objet de nombreuses recherches depuis les débuts du ML. L'objectif de cette thèse est de mettre un cadre formel autour de ce problème aux multiples facettes, de comparer les méthodes existantes et d'explorer de nouvelles directions. Pour formuler le problème AutoML de manière rigoureuse, nous introduisons d'abord un cadre mathématique qui: (1) catégorise tous les algorithmes impliqués en trois niveaux (niveaux alpha, beta et gamma); (2) définit concrètement le concept de tâche (en particulier dans un cadre d'apprentissage supervisé); (3) définit formellement HPO et méta-apprentissage; (4) introduit une métrique d'any-time learning qui permet d'évaluer les algorithmes d'apprentissage non seulement par leur précision, mais également par leur vitesse d'apprentissage. Ce cadre mathématique unifie différents sous-domaines du ML, nous permet de classer systématiquement les méthodes et nous fournit des outils formels pour faciliter les développements théoriques et de futures recherches empiriques. En particulier, il sert de base théorique à une série de challenges que nous avons organisés. En effet, notre principale approche méthodologique pour aborder AutoML avec Deep Learning a été de mettre en place un benchmark étendu, dans le cadre d'une série de challenges sur l'Automated Deep Learning (AutoDL). Ces challenges fournissent une suite de référence de solutions AutoML de base avec un référentiel d'environ 100 datasets, dont plus de la moitié sont publiés sous forme de datasets publics pour permettre la recherche sur le méta-apprentissage. À la fin de ces challenges, nous avons effectué des analyses post-challenge approfondies qui ont révélé que : (1) les solutions gagnantes se généralisent à de nouveaux datasets invisibles, ce qui valide les progrès vers la solution universelle AutoML ; (2) Malgré nos efforts pour encourager des solutions génériques, les participants ont adopté des flux de travail spécifiques pour chaque modalité ; (3) L'any-time learning a été abordé avec succès, sans sacrifier la performance finale ; (4) Bien que certaines solutions se soient améliorées par rapport à la baseline fournie, elles en ont fortement influencé plusieurs ; (5) Les solutions d'apprentissage en profondeur dominaient, mais la recherche d'architecture neuronale n'était pas pratique dans les délais impartis ; (6) Les études d'ablation ont révélé l'importance du méta-apprentissage, de l'assemblage et du chargement efficace des données, tandis que l'augmentation des données n'est pas critique. Tous les codes et données sont disponibles sur autodl.chalearn.org. Outre l'introduction d'une nouvelle formulation générale du problème AutoML, la mise en place et l'analyse du challenge AutoDL, les contributions de cette thèse comprennent : (1) Développer nos propres solutions aux problèmes que nous avons posés aux participants. Notre travail GramNAS s'attaque au problème de la recherche d'architecture neuronale (NAS) en utilisant une grammaire formelle pour encoder les architectures neuronales. Deux stratégies de recherche alternatives ont été étudiées expérimentalement: une basée sur Monte-Carlo Tree Search (MCTS), qui atteint une précision de 94% sur le dataset CIFAR-10, et une autre basée sur un algorithme évolutif qui bat les packages de pointe AutoGluon et AutoPytorch sur 4 grands datasets bien connus ; (2) Former la base d'un futur challenge sur le méta-apprentissage ; (3) Apporter plusieurs contributions théoriques. Au cours de cette thèse, plusieurs collaborations ont été engagées pour aborder les problèmes de transfer learning et d'expressivité des réseaux de neurones. Les enquêtes sur le théorème d'approximation universelle nous ont aidés à comprendre la garantie théorique derrière les systèmes d'apprentissage profond que nous déployons.