Thèse soutenue

Algorithmes tolérants aux pannes pour les applications itératives et les ordonnanceurs

FR  |  
EN
Auteur / Autrice : Yishu Du
Direction : Yves Robert
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/12/2022
Etablissement(s) : Lyon, École normale supérieure
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Optimisation des ressources : modèles, algorithmes et ordonnancement
Jury : Président / Présidente : Marc Casas
Examinateurs / Examinatrices : Yves Robert, Marc Casas, Luc Giraud, Loris Marchal, Fanny Dufossé, Francieli Zanon Boito
Rapporteur / Rapporteuse : Marc Casas, Luc Giraud

Résumé

FR  |  
EN

En raison du nombre croissant de nœuds dans les supercalculateurs, les applications scientifiques sont fréquemment interrompues par des pannes. Assurer une exécution correcte et ininterrompue de l'application nécessite des mécanismes de tolérance aux pannes, consistant en des mécanismes de prise de point de contrôle/retour sur erreur. Un point de contrôle de l'application est effectué périodiquement ; c'est-à-dire que l'état de l'application est écrit sur un stockage fiable. Chaque fois que l'une des ressources informatiques rencontre une panne, l'application s'interrompt et redémarre à partir du dernier point de contrôle valide. La période de point de contrôle optimale peut être calculée par la formule de Young/Daly, qui s'applique aux applications où un point de contrôle peut être pris à tout moment pendant le calcul. Cependant, de nombreuses applications scientifiques présentent un comportement plus compliqué. Par exemple, prendre un point de contrôle à la fin d'une itération est recommandé pour les applications itératives puisque le volume de données à contrôler est considérablement réduit à ce stade. De plus, l’ordonnanceur, un composant clé de l'infrastructure de calcul intensif, est également affecté par les pannes. Cette thèse conçoit des algorithmes tolérants aux pannes pour les applications itératives afin de minimiser le temps de terminaison des tâches de calcul et conçoit des heuristiques d'ordonnancement pour les ordonnanceurs afin d'améliorer les performances de la plate-forme. Les deux premiers travaux portent sur des applications itératives mais avec des modèles d'application différents. Dans le premier travail, nous considérons des applications itératives stochastiques comme une chaîne linéaire dont les tâches n'ont pas de temps d'exécution constants mais obéissent à des distributions de probabilité. Nous proposons une stratégie de point de contrôle statique ainsi qu’une stratégie dynamique pour minimiser le temps de complétion et montrons que la formule de Young/Daly peut être appliquée avec succès aux applications dont les itérations sont stochastiques. Le second travail considère les applications itératives déterministes comme un cycle constitué d’une chaîne de tâches. Nous proposons une stratégie de point de reprise optimale calculée en temps polynomial et montrons que des extensions de la stratégie de Young/Daly sont sous-optimales. Le travail final concerne les ordonnanceurs pour supercalculateurs. Dans les heuristiques d’ordonnancement traditionnelles, tout travail ayant échoué doit attendre que suffisamment de nœuds soient disponibles pour sa réexécution. Nous proposons une nouvelle heuristique d'ordonnancement plus rapide pour les tâches qui ont échoué. Des simulations utilisant des traces du supercalculateur Mira du Laboratoire national d'Argonne montrent que notre nouvelle approche peut améliorer l'utilisation de la plate-forme et réduire considérablement le temps de traitement des grosses tâches au prix d'une légère augmentation du temps de traitement des petites tâches.