Sur l'accélération des méthodes d'optimisation

par Damien Scieur

Thèse de doctorat en Mathématiques

Sous la direction de Francis Bach et de Alexandre d' Aspremont.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Sciences Mathématiques de Paris Centre , en partenariat avec DIENS - Département d'informatique de l'École normale supérieure (laboratoire) et de Ecole normale supérieure (établissement opérateur d'inscription) .


  • Résumé

    Dans de nombreux domaines, comme par exemple l'optimisation, la performance d'une méthode est souvent caractérisée par son taux de convergence. Cependant, accélérer un algorithme requiert une certaine connaissance de la structure du problème et de telles améliorations sont le fruit d'une étude au cas-par-cas. De nombreuses techniques d'accélération ont été développées ces dernières décennies et sont maintenant massivement utilisées. En dépit de leur simplicité, ces méthodes sont souvent basées sur des arguments purement algébriques et n'ont généralement pas d'explications intuitives. Récemment, de nombreux travaux ont été menés pour faire des liens entre les algorithmes accélérés et d'autres domaines scientifiques, comme par exemple avec la théorie du contrôle ou des équations différentielles. Cependant, ces explications reposent souvent sur des arguments complexes et la plupart utilise des outils non-conventionnels dans leur analyse. Une des contributions de cette thèse est une tentative d'explication des algorithmes accélérés en utilisant la théorie des méthodes d'intégration, qui a été très étudiée et jouit d'une analyse théorique solide. En particulier, nous montrons que les méthodes d'optimisation sont en réalité des instances de méthode d'intégration, lorsqu'on intègre l'équation du flot de gradient. Avec des arguments standards, nous expliquons intuitivement l'origine de l'accélération. De l'autre côté, les méthodes accélérées ont besoin de paramètres supplémentaires, en comparaison d'autres méthodes plus lentes, qui sont généralement difficiles à estimer. De plus, ces schémas sont construits pour une configuration particulière et ne peuvent pas être utilisés autre part. Ici, nous explorons une autre approche pour accélérer les algorithmes d'optimisation, qui utilise des arguments d'accélération générique. En analyse numérique, ces outils ont été développés pour accélérer des séquences de scalaires ou de vecteurs, en construisant parallèlement une autre séquence avec un meilleur taux de convergence. Ces méthodes peuvent être combinées avec un algorithme itératif, l'accélérant dans la plupart des cas. En pratique, ces méthodes d'extrapolation ne sont pas tellement utilisées, notamment dû à leur manque de garanties de convergence et leur instabilité. Nous étendons ces méthodes en les régularisant, ce qui permettra une analyse théorique plus profonde et des résultats de convergence plus fort, en particulier lorsqu'elles sont appliquées à des méthodes d'optimisation.

  • Titre traduit

    Acceleration in optimization


  • Résumé

    In many different fields such as optimization, the performance of a method is often characterized by its rate of convergence. However, accelerating an algorithm requires a lot of knowledge about the problem's structure, and such improvement is done on a case-by-case basis. Many accelerated schemes have been developed in the past few decades and are massively used in practice. Despite their simplicity, such methods are usually based on purely algebraic arguments and often do not have an intuitive explanation. Recently, heavy work has been done to link accelerated algorithms with other fields of science, such as control theory or differential equations. However, these explanations often rely on complex arguments, usually using non-conventional tools in their analysis. One of the contributions of this thesis is a tentative explanation of optimization algorithms using the theory of integration methods, which has been well studied and enjoys a solid theoretical analysis. In particular, we will show that optimization scheme are special instance of integration methods when integrating the classical gradient flow. With standard arguments, we intuitively explain the origin of acceleration. On the other hand, accelerated methods usually need additional parameters in comparison with slower one, which are in most cases difficult to estimate. In addition, these schemes are designed for one particular setting and cannot be used elsewhere. In this thesis, we explore a new approach for accelerating optimization algorithms, which uses generic acceleration arguments. In numerical analysis, these tools have been developed for accelerating sequences of scalars or vectors, by building on the side another sequence with a better convergence rate. These methods can be combined with an iterative algorithm, speeding it up in most cases. In practice, extrapolation schemes are not widely used due to their lack of theoretical guarantees and their instability. We will extend these methods by regularizing them, allowing a deeper theoretical analysis and stronger convergence results, especially when applied to optimization methods.