Thèse soutenue

Minimisation des commmunications lors de factorisations incomplètes et d'approximations de rang faible dans le contexte des grands supercalculateurs

FR  |  
EN
Auteur / Autrice : Sébastien Cayrols
Direction : Laura Grigori
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 18/02/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jacques-Louis Lions (Paris ; 1997-....)
Jury : Président / Présidente : Frédéric Hecht
Examinateurs / Examinatrices : Jennifer Scott, Marc Baboulin
Rapporteurs / Rapporteuses : Timothy A. Davis, Patrick Amestoy

Résumé

FR  |  
EN

L’impact des communications sur les performances d’un code d’algèbre linéaire augmente avec le nombre de processeurs. Dans le contexte de la résolution de systèmes d’équations linéaires creux, la résolution de Ax = b, sur une machine composée de milliers de nœuds, nécessite la minimisation des communications dans le but d’atteindre une grande efficacité tant en terme de calcul qu’en terme d’énergie consommée. La factorisation LU, même incomplète, de la matrice A est connue pour être difficilement parallélisable. Ce manuscrit présente CA-ILU(k), un nouveau préconditionneur qui minimise les communications autant durant la phase de factorisation que durant son application à chaque itération d’un solveur tel que GMRES. L’idée est de considérer un sous-ensemble de lignes de A et de lui adjoindre des données de A tel que la factorisation du sous-ensemble, ainsi que l’application des facteurs obtenus, se fait sans communication. Les expériences réalisées montre que CA-ILU(k) rivalise avec les préconditionneurs Block Jacobi et Restricted Additive Schwarz en terme d’itérations. Nous présentons ensuite un algorithme de rang faible appelé la factorisation LU couplée à une permutation des lignes et des colonnes, LU-CRTP. Cet algorithme utilise une méthode par tournoi pour sélectionner un sous-ensemble de colonnes de A, permettant la factorisation par bloc de la matrice A permutée, ainsi qu’une approximation des valeurs singulières de A. Les test séquentiels puis parallèles ont permit de mettre en évidence que LU-CRTP retourne une approximation des valeurs singulières avec une erreur proche de celle obtenue par la factorisation QR révélant le rang de la matrice (RRQR). En outre, l’espace mémoire occupé par les facteurs de LU-CRTP est jusqu’à 200 fois plus faible que dans le cas de RRQR. Toujours dans le cadre d’une approximation de rang faible, nous proposons enfin une amélioration de la stratégie de pivotage par tournoi qui réduit le nombre d’opérations effectuées ainsi que les communications. Une colonne de A est retirée de la méthode si elle est une combinaison linéaire des autres colonnes de A, suivant un critère τ . Des tests sur un grand nombre de matrices montrent que cette modification ne dégrade pas significativement la précision de LU-CRTP. En outre, cette modification appliquée à la variante de RRQR minimisant les communications réduit par un facteur de 36 le nombre d’opérations.