Thèse en cours

Vers une théorie de l'apprentissage adaptée aux réseaux profonds.

FR  |  
EN
Auteur / Autrice : Hugo Chardon
Direction : Matthieu Lerasle
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/10/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : CREST - Centre de recherche en économie et statistique
Equipe de recherche : Laboratoire de Statistique

Résumé

FR  |  
EN

Les remarquables succès enregistrés ces dernières années par les méthodes de Deep Learning ont mis à jour des phénomènes surprenants soulevant d'importantes questions théoriques. En particulier, les algorithmes de descente de gradient simple convergent vers des solutions quasi-optimales de problèmes d'optimisation non convexes. De plus, alors que ces solutions s'ajustent parfaitement ou presque aux données d'apprentissage et alors que rien n'est fait pour contrôler la complexité du modèle, ces méthodes présentent d'excellentes capacités de généralisation. Dès lors, il s'agit de comprendre les principes expliquant ces nouveaux comportements. La surparamétrisation des modèles de Deep-Learning conduirait les algorithmes de descente de gradient à des solutions interpolantes, tout en imposant implicitement une régularisation, et la surparamétrisation permettrait au surajustement d'être bénin, de manière à rendre les prédictions du modèle entraîné précises alors même que les données d'apprentissage sont parfaitement reproduites. Dans ce projet, il s'agira de développer les points de vue récents de la théorie de l'apprentissage statistique qui fournissent des exemples illustrant que ces principes semblent effectifs dans des contextes simples. On pourra commencer par chercher à généraliser les résultats existants à d'autres pertes, de façon par exemple à étudier la perte en classification du classifieur de plus grande marge, de façon à ce que le candidat se familiarise activement avec le sujet. Dans un second temps, il s'agira de dépasser le cadre d'estimateurs linéaires de base et de chercher à comprendre le comportement d'interpolants de plus petite norme sous des hypothèses de structures plus souples, par exemple exploitant la géométrie du problème.