Mathématiques du deep learning : généralisation, optimisation, modèles en temps continu
Auteur / Autrice : | Pierre Marion |
Direction : | Gérard Biau, Jean-Philippe Vert |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 20/11/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....) |
Jury : | Président / Présidente : Francis Bach |
Examinateurs / Examinatrices : Claire Boyer, Quentin Berthet, Anna Korba, Stéphane Chrétien | |
Rapporteur / Rapporteuse : Peter L. Bartlett, Christophe Giraud |
Mots clés
Résumé
L'apprentissage profond a largement transformé le paysage de l'apprentissage automatique au cours de la dernière décennie, avec un impact majeur dans divers domaines de l'intelligence artificielle. Cependant, les propriétés des méthodes d'apprentissage profond ne sont pas encore entièrement comprises. Dans cette thèse de doctorat, nous présentons des contributions, principalement d'ordre théorique, dans ce domaine. Nous étudions différentes familles de réseaux neuronaux (réseaux neuronaux à une couche cachée, réseaux résiduels, réseaux récurrents, Transformer) et différents types de problèmes mathématiques, notamment en statistique (bornes de généralisation) et en optimisation (convergence du flot de gradient). Dans un premier temps, nous nous intéressons à la limite en grande profondeur des réseaux résiduels. Il a été remarqué dans la littérature que cette limite en grande profondeur pourrait correspondre à une équation différentielle ordinaire neuronale. Sous des conditions appropriées, nous montrons que c'est effectivement le cas, bien que d'autres objets limites peuvent aussi apparaître, en particulier une équation différentielle stochastique. Nous étudions les propriétés d'optimisation et statistiques des réseaux neuronaux dans ce cadre. Dans la deuxième partie de la thèse, nous nous intéressons à des réseaux neuronaux de profondeur finie. Nous prouvons la convergence du flot de gradient pour des réseaux à une couche cachée avec un nombre modéré de neurones dans un cadre simple. Enfin, nous étudions les propriétés de l'architecture plus récente du Transformer avec une approche plus pratique.