Thèse soutenue

Vers une compréhension mathématiques des réseaux neuronaux profonds par une analyse champ moyen

FR  |  
EN
Auteur / Autrice : Arnaud Descours
Direction : Arnaud GuillinManon MichelBoris Nectoux
Type : Thèse de doctorat
Discipline(s) : Mathématiques fondamentales
Date : Soutenance le 20/10/2023
Etablissement(s) : Université Clermont Auvergne (2021-...)
Ecole(s) doctorale(s) : École doctorale des sciences fondamentales (Clermont-Ferrand)
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques Blaise Pascal
Jury : Président / Présidente : Benjamin Jourdain
Examinateurs / Examinatrices : Liming Wu, Michela Ottobre
Rapporteurs / Rapporteuses : Francis Bach, Alain Durmus

Résumé

FR  |  
EN

Dans cette thèse, nous menons une étude mathématique et numérique des réseaux de neurones (classiques et bayésiens) à une couche cachée. L'approche champ moyen, qui provient de la physique statistique, est aujourd'hui utilisée pour l'étude des systèmes de particules au sens large. Les poids associés au réseau de neurones classique sont vus comme des particules en interaction. Nous étudions l'évolution des poids du réseau entraîné par l'algorithme de descente de gradient stochastique (SGD). Nous montrons une loi des grands nombres (LGN) et un théorème central limite (TCL). Cette étude met en évidence l'existence de différents régimes, en fonction de l'intensité d'un bruit additionnel ajouté à l'algorithme SGD classique. Si le bruit est suffisamment intense, la limite champ moyen est perturbée par un terme laplacien, qui régularise l'équation et simplifie son analyse. L'équation du TCL est, quant à elle, perturbée pour une intensité plus faible du bruit. Nos équations permettent également de quantifier la réduction de variance obtenue grâce à un mini-batch.Les réseaux de neurones bayésiens - où les poids du réseau sont des variables aléatoires - que nous étudions sont entraînés par inférence variationnelle, une méthode qui permet de ne pas avoir à échantillonner la loi a posteriori, difficile à échantillonner. Les paramètres de la famille variationnelle sont optimisés par SGD. Cette descente de gradient vise à maximiser une quantité, appelée Evidence Lower Bound, qui se décompose en deux termes: un terme de coût, qui mesure l'écart entre les prédictions et les données d'entraînement, et un terme de pénalisation, sous forme de divergence de Kullback-Leibler par rapport à une distribution a priori. Une question importante est de savoir quelle importance relative doit être donnée à ces deux termes. Nous prouvons que le terme de pénalisation doit être pénalisé de façon inversement proportionnelle au nombre de neurones. Ce résultat se montre sous forme de LGN trajectorielle. Plus précisément, nous étudions trois différents algorithmes:- le SGD idéalisé, correspondant à l'algorithme exact, mais faisant intervenir une intégrale incalculable.- le SGD Bayes-by-backprop qui est l'algorithme utilisé en pratique.- le SGD Minimal-VI, que nous introduisons, et qui est moins coûteux en temps de calcul (le nombre de variables aléatoire à simuler à chaque itération de l'algorithme passe de N à 2, où N est le nombre de neurones sur la couche cachée).Nous établissons que ces trois algorithmes sont équivalents dans la limite champ moyen, et étudions mathématiquement (par un TCL) et numériquement la variance associée à ces trois algorithmes par rapport à la limite champ moyen.