Thèse soutenue

Analyse dynamique des réseaux de neurones de largeur infinie

FR  |  
EN
Auteur / Autrice : Karl Hajjar
Direction : Christophe GiraudLénaïc Chizat
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 12/01/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....)
Référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-….)
Jury : Président / Présidente : Gilles Blanchard
Examinateurs / Examinatrices : Claire Boyer, Li Qin, Aymeric Dieuleveut
Rapporteur / Rapporteuse : Claire Boyer, Li Qin

Résumé

FR  |  
EN

Durant la dernière décennie, les réseaux de neurones ont eu un succès retentissant dans de nombreuses tâches en pratique, cependant les arguments théoriques derrière ce succès restent insuffisants et une théorie mathématique appropriée pour étudier rigoureusement ces objets fait toujours défaut. Les limites des réseaux de neurones à largeur infinie sont récemment apparues comme une façon d'éclaircir certains aspects du problème. Dans cette thèse, nous étudions la limite des réseaux de neurones de largeur infinie avec une renormalisation particulière souvent dénommée ''champ moyen'' dans la littérature. La difficulté d'analyser les réseaux de neurones d'un point de vue théorique réside en partie dans la nature hautement non-linéaire de ces objets et dans l'énorme quantité de paramètres, ou poids (pouvant aller jusqu'à la centaine de milliards en pratique) qui interagissent lorsqu'ils sont mis à jour durant la descente de gradient. Nous examinons les trajectoires durant l'optimisation des réseaux de neurones de largeur infinie pendant la phase d'entraînement afin d'exhiber des propriétés de ces modèles dans certains cadres simples tels que les réseaux de neurones entièrement connectés avec une ou plusieurs couches cachées. Cette thèse traite de différents aspects de la dynamique d'optimisation des réseaux de neurones de largeur infinie: des méthodes pour rendre possible l'entraînement de ces modèles aux symétries qui peuvent émerger dans cette limite en passant par de nouveaux algorithmes d'optimisation qui adaptent le nombre de neurones à la volée durant la phase d'entraînement.