Thèse en cours

Vers un apprentissage plus profond : réseaux résiduels, équations différentielles neuronales et transformers, en théorie et en pratique

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 20/11/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Michaël Sander
Direction : Gabriel Peyré
Type : Projet de thèse
Discipline(s) : Mathématiques
Date : Inscription en doctorat le
Soutenance le 20/11/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre
Partenaire(s) de recherche : Laboratoire : DMA - Département de Mathématiques et Applications
Equipe de recherche : Analyse (DMA)
établissement opérateur d'inscription : Ecole normale supérieure
Jury : Président / Présidente : Francis Bach
Examinateurs / Examinatrices : Gabriel Peyre, Arnaud Doucet, Julien Mairal, Anna Korba, Mathieu Blondel, Gérard Biau, Cyril Letrouit
Rapporteurs / Rapporteuses : Arnaud Doucet, Julien Mairal

Résumé

FR  |  
EN

Cette thèse de doctorat apporte des contributions au domaine de l'apprentissage profond en étudiant les propriétés théoriques et pratiques des réseaux de neurones résiduels profonds. Des réseaux ResNets convolutionnels aux Transformers, ces architectures sont omniprésentes dans les modèles d'apprentissage profond de pointe. Malgré leurs succès indéniables, les réseaux résiduels profonds demeurent théoriquement difficiles à analyser et coûteux en mémoire à entrainer. Les désormais populaires équations différentielles neuronales, les analogues en profondeur infinie des réseaux résiduels offrent à la fois une interprétation théorique plus accessible et un coût mémoire significitativement moindre durant l'entraînement. Cependant, comprendre le lien entre les modèles discrets et continus nécessite une fondation mathématique rigoureuse. Dans ce manuscrit, nous démontrons que, pour qu'une correspondance formelle entre les réseaux résiduels et les équations différentielles neuronales ordinaires soit valide, les fonctions résiduelles doivent être lisses par rapport à la profondeur du réseau. De plus, nous présentons un résultat sur la régularisation implicite des réseaux résiduels profonds vers les équations différentielles neuronales ordinaires : si le réseau est initialisé comme une discrétisation d'une équation différentielle neuronale, alors cette discrétisation se maintient tout au long de l'entraînement. Nous considérons également l'utilisation d'une méthode adjointe discrète pour entraîner les réseaux de neurones résiduels en recalculant les activations à la volée lors d'une rétropropagation dans le réseau, évitant ainsi les coûts mémoires dans les couches résiduelles. Nous montrons que cette méthode réussit théoriquement et empiriquement à grande profondeur. Ensuite, nous illustrons deux applications de cette analogie en concevant et en étudiant de nouvelles architectures. Tout d'abord, nous proposons, en ajoutant un simple terme d'inertie, une alternative pour tout réseau résiduel qui peut être entraînée avec des performances comparables tout en utilisant significativement moins de mémoire. Ces modèles, appelés Momentum Residual Networks, peuvent être interprétés dans la limite d'un nombre infini de couches comme des équations différentielles ordinaires du second ordre. Ensuite, en interprétant le mécanisme d'attention comme un système de particules en interaction, où les particules représentent les mots (ou tokens). Nous explorons également l'impact de la normalisation des matrices d'attention sur le comportement des Transformers, en introduisant une nouvelle architecture appelée Sinkformer, dans laquelle les matrices d'attention sont rendues doublement stochastiques à l'aide de l'algorithme de Sinkhorn. Enfin, nous apportons des contributions supplémentaires à la compréhension des Transformers. Nous examinons comment ils effectuent un apprentissage autoregressif à partir d'un contexte sur des processus autoregressifs du premier ordre, décomposant le processus en deux étapes : l'estimation d'un paramètre interne et la prédiction du prochain token. Notre analyse théorique révèle cette décomposition pour les Transformers entraînés de manière optimale sur de telles tâches. Nous montrons également comment acheminer de manière différentiable les tokens vers des experts dans les Transformers de type Sparse Mixture of Experts en introduisant de nouveaux opérateurs top-k parcimonieux et différentiables. Cette approche s'appuie sur une formulation novatrice de l'opérateur top-k comme un programme linéaire sur le permutahedron — l'enveloppe convexe des permutations d'un vecteur — et introduit un terme de régularisation en norme p pour lisser l'opérateur. Les contributions algorithmiques de cette thèse sont publiquement mis à disposition en ligne.