Thèse en cours

Vers un apprentissage plus profond : réseaux résiduels, équations différentielles neuronales et transformers, en théorie et en pratique

FR  |  
EN
Auteur / Autrice : Michaël Sander
Direction : Gabriel Peyre
Type : Projet de thèse
Discipline(s) : Mathématiques
Date : Inscription en doctorat le 01/09/2020
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département de mathématiques et applications (1998-....)
Equipe de recherche : Analyse (DMA)
établissement opérateur d'inscription : Ecole normale supérieure

Résumé

FR  |  
EN

Les réseaux de neurones résiduels profonds atteignent l'état de l'art dans de nombreux domaines de l'apprentissage profond. Leur analogue continues, les équations différentielles neuronales, sont également largement utilisées. Ce doctorat s'intéresse dans un premier temps à cette analogie pour proposer de nouvelles architectures profondes, puis, dans un second temps, propose un formalisme pour étudier rigoureusement la correspondance mathématiques entre les deux objets. Nouvelles architectures: -L'entraînement de réseaux de neurones résiduels profonds se fait à l'aide de l'algorithme de rétropropagation du gradient. Cette approche est efficace en temps de calcul, mais utilise un espace mémoire qui peut devenir prohibitif, surtout pour des architectures profondes. Nous utilisons l'analogie entre réseaux résiduels et équations différentielles afin de proposer des techniques de stabilisation et de compression permettant de réduire au maximum l'empreinte mémoire. Plus précisément, nous proposons une nouvelle architecture dont la limite continue correspond à une équation différentielle d'ordre deux. Cette architecture est parfaitement inversible, ce qui permet d'avoir un coup mémoire constant en profondeur. -Les Transformers sont un type particulier de réseaux de neurones résiduels, qui fait interagir les données en considérant des intéractions par paires. Nous proposons une modélisation des ces Transformers avec des équations aux dérivées partielles afin d'étudier l'impact de la normalisation du noyau d'attention sur les dynamiques correspondantes pour les particules. Pour le choix d'un noyau doublement stochastique, l'évolution correspond à un flot gradient Wasserstein pour la minimisation d'une certaine fonction sur l'espace des mesures. Etude mathématique: De simples contre-exemples révèlent que les dynamiques discrètes des réseaux de neurones résiduels peuvent être différentes de solutions d'équations différentielles. Nous montrons que, sous des hypothèses concernant l'initialisation des poids des réseaux, si ceux- ci discrétisent une équation différentielle à leur initialisation, alors ils discrétiseront une équation différentielle durant leur entraînement, le tout uniformément en profondeur et temps d'optimisation. Comme sous-produit de notre analyse, nous considérons l'utilisation d'une méthode d'adjoint discret sans mémoire pour former un réseau résiduel en récupérant les activations à la volée par un passage en arrière du réseau, et nous montrons que cette méthode réussit théoriquement à une grande profondeur si les fonctions résiduelles sont Lipschitz avec l'entrée. Cette thèse propose des librairies open-source python, qui seront construites comme des extensions des librairies Python d'apprentissage et différenciation automatique Pytorch et JAX.