Thèse soutenue

Algorithmes Inertiels et de Second Ordre pour l'Entraînement de Réseaux de Neurones
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Camille Castera
Direction : Cédric FévotteEdouard Pauwels
Type : Thèse de doctorat
Discipline(s) : Mathématiques Appliquées
Date : Soutenance le 29/11/2021
Etablissement(s) : Toulouse, INPT
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury : Président / Présidente : Jalal Fadili
Examinateurs / Examinatrices : Cédric Févotte, Edouard Pauwels, Jalal Fadili, Jérôme Bolte, Claire Boyer
Rapporteurs / Rapporteuses : Emilie Chouzenoux, Pascal Bianchi

Résumé

FR  |  
EN

Les modèles de réseaux de neurones sont devenus extrêmement répandus ces dernières années en raison de leur efficacité pour de nombreuses applications. Ce sont des modèles paramétriques de très grande dimension et dont les paramètres doivent être réglés spécifiquement pour chaque tâche. Cette procédure essentielle de réglage, connue sous le nom de phase d'entraînement, se fait à l'aide de grands jeux de données. En raison du nombre de données ainsi que de la taille des réseaux de neurones, l'entraînement s'avère extrêmement coûteux en temps de calcul et en ressources informatiques. D'un point de vue mathématique, l'entraînement se traduit sous la forme d'un problème d'optimisation en très grande dimension impliquant la minimisation d'une somme de fonctions. Les dimensions de ce problème d'optimisation limitent fortement les possibilités algorithmiques pour minimiser une telle fonction. Dans ce contexte, les algorithmes standards s'appuient presque exclusivement sur des approximations de gradients via la méthode de rétro-propagation et le sous-échantillonnage par mini-lots. Pour ces raisons, les méthodes du premier ordre de type gradient stochastique (SGD) restent les plus répandues pour résoudre ces problèmes. De plus, la fonction à minimiser est non-convexe et potentiellement non-différentiable, limitant ainsi grandement les garanties théoriques de ces méthodes. Dans cette thèse, nous nous intéressons à construire de nouveaux algorithmes exploitant de l'information de second ordre tout en ne nécessitant que de l'information bruitée du premier ordre, calculée par différentiation automatique. Partant d'un système dynamique (une équation différentielle ordinaire), nous introduisons INNA, un algorithme inertiel et Newtonien. En analysant conjointement le système dynamique et l'algorithme, nous prouvons la convergence de ce dernier vers les points critiques de la fonction à minimiser. Nous montrons ensuite que cette convergence se fait en réalité vers des minimums locaux avec très grande probabilité. Enfin, nous introduisons Step-Tuned SGD, qui, à partir d'une utilisation astucieuse des mini-lots, discrétise efficacement de l'information du second-ordre afin de régler finement les pas de SGD. Nous prouvons la convergence presque sûre de SGD vers les points critiques et explicitons des vitesses de convergence. Tous les résultats s'accompagnent d'expériences encourageantes sur des problèmes d'apprentissage profond (ou deep learning).