Algorithmes adaptatifs de Langevin Monte Carlo pour l'optimisation stochastique et l'inférence bayésienne
Auteur / Autrice : | Pierre Bras |
Direction : | Gilles Pagès |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 11/09/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....) |
Jury : | Président / Présidente : Francis Bach |
Examinateurs / Examinatrices : Olivier Pironneau, Gersende Fort, Nicolas Fournier, Josef Teichmann | |
Rapporteurs / Rapporteuses : Éric Moulines, Mike Giles |
Résumé
Nous étudions la convergence des algorithmes adaptatifs de descente de gradient par dynamique de Langevin (SGLD) pour résoudre des problèmes d'optimisation et d'inférence. Les algorithmes SGLD consistent en une descente de gradient avec ajout de bruit exogène dans le but d'échapper aux minima locaux et aux points selle. Contrairement à l'équation différentielle stochastique (EDS) de Langevin classique, nous nous concentrons sur le cas où le bruit exogène est adaptatif i.e. non constant et dépend de la position de la procédure, donnant une convergence plus rapide que les algorithmes non adaptatifs. Bien que le cas constant ait été largement étudié, peu d'attention a été portée jusqu'à présent au cas général et la littérature manque d'un résultat théorique général de convergence. Dans une première partie, nous prouvons la convergence de ces algorithmes pour la distance de Wasserstein L^1 et pour la distance de la variation totale, à la fois pour l'EDS continue et pour l'algorithme discret avec des mesures de gradient bruitées. Nous nous intéressons également aux algorithmes de Langevin-recuit simulé, où le bruit décroît lentement vers zéro au cours du temps à une vitesse appropriée. Nous investiguons aussi le cadre "dégénéré" i.e. où la matrice Hessienne en le minimum n'est pas définie positive, un aspect qui a été mis de côté par la littérature. Dans une seconde partie nous appliquons les algorithmes SGLD à des problèmes d'optimisation et d'inférence apparaîssant en apprentissage machine et en probabilités numériques et nous comparons les performances de divers algorithmes de Langevin préconditionnés (adaptatifs) avec leurs équivalents respectifs non-Langevin. Nous observons que les algorithmes de Langevin améliorent la procédure d'entraînement pour des réseaux de neurones artificiels très profonds et que plus le réseau est profond, plus les gains apportés par les algorithmes de Langevin sont importants. Suivant cette heuristique nous introduisons une nouvelle variante des algorithmes de Langevin appelée "Langevin par couches", qui ajoute du bruit de Langevin sur seulement les couches les plus profondes du réseaux. Nous montrons les avantages des algorithmes de Langevin et de Langevin par couches pour l'entraînement d'architectures profondes en reconnaissance d'image (ResNet, DenseNet) et en contrôle stochastique (réseaux Markoviens). Une dernière partie est consacrée à la simulation numérique de processus stochastiques. Nous démontrons des bornes pour la distance en variation totale entre une EDS et son schéma d'Euler-Maruyama en temps court, en utilisant une extrapolation de Richardson-Romberg pondérée. Ce résultat est crucial pour l'analyse de la convergence en variation totale des algorithmes de Langevin mentionnés ci-dessus. En utilisant l'analyse trajectorielle, nous étudions le taux d'erreur faible du schéma d'Euler-Maruyama pour les équations de Volterra stochastiques (EVSs), qui sont des équations différentielles stochastiques non Markoviennes avec un noyau de mémoire, tout en gardant à l'esprit le cas des modèles à volatilité rugueuse. Enfin, nous donnons des formules et des méthodes de simulation pour le mouvement Brownien réfléchi ou arrêté dans un cône en deux dimensions.