Thèse de doctorat en Automatique, traitement du signal et des images
Sous la direction de Luc Pronzato et de Anatoly Zhigljavsky.
Soutenue en 2012
à Nice .
Algorithmes de gradient asymptotiquement optimaux : analyse et implémentation
Nous nous intéressons dans ce manuscrit au problème relatif à la minimisation de fonctions quadratiques dont la matrice hessienne est creuse, symétrique et définie positive (ou, de manière équivalente, au problème de résolution de systèmes linéaires de grande taille). Les méthodes classiques itératives fréquemment employées pour résoudre ce problème procèdent en choisissant successivement des pas dont la longueur et la direction dépendent du spectre de la matrice et sont donc adaptées au problème particulier traité. Ce choix adaptatif du pas peut cependant limiter l’efficacité de l’implémentation parallèle d’un algorithme : la présence de nombreux produits scalaires à calculer limite grandement les performances en imposant des étapes de synchronisation ainsi qu’un communication globale coûteuse dans le cas particulier des machines parallèles à mémoire distribuée disposant d’un grand nombre de processeurs. L’approche proposée dans cette thèse se fonde sur l’utilisation d’une famille de méthodes du gradient pour laquelle l’inverse de la longueur des pas est choisi d’avance. Pour ce type de méthodes, l’utilisation d’une suite de longueurs de pas ayant une distribution arc sinus sur l’intervalle défini par les limites du spectre de la matrice hessienne permet de converger rapidement. De fait, il n’y a aucun besoin d’étudier précisément le détail du spectre dans la mesure où les longueurs de pas ne sont reliées au problème que par les valeurs propres extrêmes de la matrice hessienne. Nous proposons d’estimer celles-ci pendant le déroulement de l’algorithme lui-même. En conséquence de la simplicité du calcul de la longueur des pas, le calcul de produits scalaires à chaque itération de l’algorithme n’est pas nécessaire (ils ne sont utilisés que sur un petit nombre d’itérations prédéfinies dans le but de déterminer les limites spectrales de la matrice) rendant ainsi notre approche particulièrement intéressante dans un contexte de calcul parallèle. Nous proposons plusieurs méthodes de gradient couplées à différentes suites de longueurs de pas précalculées ainsi qu’à plusieurs estimateurs de valeurs propres. En pratique, les performances de la méthode la plus efficace (en termes de propriété de convergence et de coût calcul) sont testées sur un ensemble de problèmes théoriques et pratiques. La même approche est aussi considérée pour l’optimisation quadratique convexe sous contraintes d’égalité.
In this work we consider the minimization of quadratic functions with sparse and symmetric positive-definite Hessian matrices (or, equivalently, the solution of large linear systems of equations). Classical iterative methods for solving these problems proceed by choosing the step sizes (and search directions) relatively to the spectrum of the matrix, which are thus adapted to the particular problem considered. This type of adaptive choice results in computations that may limit the efficiency of parallel implementations of a given method : the presence of several (separate) inner products to be computed at each iteration crates blocking steps due to required global communication on some distributed-memory parallel machines with large number of processors. The approach developed in this thesis is focused on the use of a family of gradient methods where the inverse step sizes are selected beforehand. For this type of methods the use of sequences of step sizes with the arcsine distribution on the interval defined by the bounds of the matrix spectrum allows to achieve fast rates of convergence. Therefore, there is no need to extensively study the spectrum since the step size are connected to the problem through only the extremal eigenvalues of the Hessian matrix. We propose to estimate the matrix spectrum and generated by the algorithm itself. Due to the simplicity of the step size generation, the computation of inner products at each iteration is not required (they are needed at just a small number of pre-defined iterations to determine the spectral boundaries), making the approach particularly interesting in a parallel computing context. Several effective gradient methods are proposed coupled with pre-computed sequences of step sizes and eigenvalue estimators. The practical performance of the most appealing of them (in terms of convergence properties and required computational effort) is tested on a set of theoretical and real-life test problems. The same approach is also considered for convex quadratic optimization subject to equality constraints.