Algorithmes accélérés en optimisation et leur lien avec les systèmes dynamique

par Hippolyte LabarriÉRe

Projet de thèse en Mathématiques et Applications

Sous la direction de Charles Dossal et de Jean-François Aujol.

Thèses en préparation à Toulouse, INSA , dans le cadre de École doctorale Mathématiques, informatique et télécommunications , en partenariat avec Institut de mathématiques de Toulouse (2007-....) (laboratoire) depuis le 01-09-2020 .


  • Résumé

    Les algorithmes de premier ordre (utilisant uniquement l'information gradient du critère) sont aujourd'hui extrêmement populaires. Ils permettent en effet de traiter efficacement des problèmes de très grandes dimensions, et sont donc utilisés de manière intensive dans de nombreux domaines tels que le traitement d'image ou l'apprentissage (profond en particulier). La compréhension des propriétés de ces algorithmes est donc indispensable afin de les exploiter au mieux en fonction des types de problèmes considérés. L'objectif de cette thèse est d'étudier et de mieux comprendre de tels schémas afin de pouvoir les utiliser au mieux selon les classes de problèmes d'optimisation considérées. Les techniques envisagées au cours de la thèse pour l'étude de ces schémas sont principalement de type EDO/fonctions de Lyapunov. Plus précisément, un premier enjeu de cette thèse est de proposer des résultats plus complets de convergence et de vitesse de convergence des algorithmes du gradient inertiels. Dans un premier temps, il s'agira de terminer les travaux entamés au cours du stage d'Hippolyte Labarrière conduisant vers un nouvel algorithme de gradient accéléré de Nesterov avec restart dont on prouve la convergence avec des vitesses exponentielles rapides. Des comparaisons numériques avec des algorithmes de l'état de l'art (FISTA, algorithme d'Alamo et al.) sont en cours. Dans un second temps, nous étudierons plus généralement la situation où des algorithmes de descente de gradient sont utilisés dans des boucles internes. Nous avons l'intention d'étendre ces résultats au gradient stochastique (SGD) proximal. Un autre objectif serait aussi de mieux comprendre l'optimisation des réseaux de neurones profonds. Ces modèles sont organisés en une série de couches distinctes et les fonctions d'activation entre les couches incorporent des non-linéarités. Une application directe de SGD standard sur des fonctions d'activation classiques peut conduire à des algorithmes d'apprentissage lents. Les méthodes d'apprentissage profond reposent donc sur le calcul local des poids de descente et peuvent être considérées comme une séquence d'étapes proximales. Cependant, pour une meilleure efficacité, les paramètres doivent varier en fonction de la géométrie des fonctions d'activation proches du minimiseur. L'idée sera de proposer des schémas d'accélération adaptatifs prenant en compte la géométrie des fonctions d'activation et prouvant la convergence vers certains minimiseurs locaux.

  • Titre traduit

    Accelerated algorithms in optimization and their link with dynamic systems


  • Résumé

    First-order algorithms are extremely popular today. Indeed, they allow to deal efficiently with very large problems, and are therefore used intensively in many fields such as image processing or deep learning. The understanding of the properties of these algorithms is thus essential in order to exploit them at best according to the types of problem considered. The objective of this thesis is to study and better understand such schemes in order to be able to use them at best according to the classes of optimization problems considered. The techniques envisaged during the thesis for the study of these schemes are mainly of EDO/Lyapunov functions type. More precisely, a first stake of this thesis is to give more complete results of convergence and convergence speed of inertial gradient algorithms. In a first step, it will be a question of completing the work started during Hippolyte Labarrière's internship leading to a new Nesterov accelerated gradient algorithm with restart whose convergence with fast exponential velocities is proved. Numerical comparisons with state-of-the-art algorithms (FISTA, Alamo et al. algorithm) are in progress. In a second step, we will study more generally the situation where gradient descent algorithms are used in internal loops. We intend to extend these results to the proximal stochastic gradient (SGD). Another objective would also be to better understand the optimization of deep neural networks. These models are organized in a series of distinct layers and the activation functions between the layers incorporate non-linearities. A direct application of standard SGD on classical activation functions can lead to slow learning algorithms. Deep learning methods are therefore based on the local calculation of descent weights and can be considered as a sequence of proximal steps. However, for a better efficiency, the parameters must vary according to the geometry of the activation functions close to the minimizer. The idea will be to propose adaptive acceleration schemes taking into account the geometry of the activation functions and proving the convergence towards certain local minimizers.