Thèse soutenue

Une approche autonomique à la régulation en ligne de systèmes HPC, avec un support pour la reproductibilité des expériences

FR  |  
EN
Auteur / Autrice : Quentin Guilloteau
Direction : Eric Rutten
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/12/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Jury : Président / Présidente : Noël de Palma
Examinateurs / Examinatrices : Eric Rutten, Georges Da Costa, Fabienne Boyer
Rapporteurs / Rapporteuses : Alessandro Vittorio Papadopoulos, Alexandru Costan

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les systèmes de calcul haute performance (HPC) sont devenus de plus en plus complexes, et leurs performances ainsi que leur consommation d'énergie les rendent de moins en moins prévisibles.Cette imprévisibilité nécessite une gestion en ligne et prudente, afin garantir une qualité de service acceptable aux utilisateurs.Un tel problème de régulation se pose dans le contexte de l'intergiciel de grille de calcul CiGri qui vise à récolter les ressources inutilisées d'un ensemble de grappes via l'injection de tâches faiblement prioritaires.Une stratégie de récolte trop agressive peut conduire à la dégradation des performances pour tous les utilisateurs des grappes, tandis qu'une récolte trop timide laissera des ressources inutilisées et donc une perte de puissance de calcul.Il existe ainsi un compromis entre la quantité de ressources pouvant être récoltées et la dégradation des performances pour les tâches des utilisateurs qui en résulte.Ce compromis peut évoluer au cours de l'exécution en fonction des accords de niveau de service et de la charge du système.Nous affirmons que de tels défis de régulation peuvent être résolus avec des outils issus de l'informatique autonomique, et en particulier lorsqu'ils sont couplés à la théorie du contrôle.Cette thèse étudie plusieurs problèmes de régulation dans le contexte de CiGri avec de tels outils.Nous nous concentrerons sur la régulation de la récolte de ressources libres en fonction de la charge d'un système de fichiers distribué partagé et sur l'amélioration de l'utilisation globale des ressources de calcul.Nous évaluerons et comparerons également la réutilisabilité des solutions proposées dans le contexte des systèmes HPC.Les expériences réalisées dans cette thèse nous ont par ailleurs amené à rechercher de nouveaux outils et techniques pour améliorer le coût et la reproductibilité des expériences.Nous présenterons un outil nommé NixOS-Compose capable de générer et de déployer des environnements logiciels distribués reproductibles.Nous étudierons de plus des techniques permettant de réduire le nombre de machines nécessaires pour expérimenter sur des intergiciels de grappe, tels que CiGri, tout en garantissant un niveau de réalisme acceptable pour le système final déployé.