Une approche autonomique à la régulation en ligne de systèmes HPC, avec un support pour la reproductibilité des expériences
Auteur / Autrice : | Quentin Guilloteau |
Direction : | Eric Rutten |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 11/12/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de Grenoble |
Jury : | Président / Présidente : Noël de Palma |
Examinateurs / Examinatrices : Eric Rutten, Georges Da Costa, Fabienne Boyer | |
Rapporteurs / Rapporteuses : Alessandro Vittorio Papadopoulos, Alexandru Costan |
Mots clés
Mots clés contrôlés
Résumé
Les systèmes de calcul haute performance (HPC) sont devenus de plus en plus complexes, et leurs performances ainsi que leur consommation d'énergie les rendent de moins en moins prévisibles.Cette imprévisibilité nécessite une gestion en ligne et prudente, afin garantir une qualité de service acceptable aux utilisateurs.Un tel problème de régulation se pose dans le contexte de l'intergiciel de grille de calcul CiGri qui vise à récolter les ressources inutilisées d'un ensemble de grappes via l'injection de tâches faiblement prioritaires.Une stratégie de récolte trop agressive peut conduire à la dégradation des performances pour tous les utilisateurs des grappes, tandis qu'une récolte trop timide laissera des ressources inutilisées et donc une perte de puissance de calcul.Il existe ainsi un compromis entre la quantité de ressources pouvant être récoltées et la dégradation des performances pour les tâches des utilisateurs qui en résulte.Ce compromis peut évoluer au cours de l'exécution en fonction des accords de niveau de service et de la charge du système.Nous affirmons que de tels défis de régulation peuvent être résolus avec des outils issus de l'informatique autonomique, et en particulier lorsqu'ils sont couplés à la théorie du contrôle.Cette thèse étudie plusieurs problèmes de régulation dans le contexte de CiGri avec de tels outils.Nous nous concentrerons sur la régulation de la récolte de ressources libres en fonction de la charge d'un système de fichiers distribué partagé et sur l'amélioration de l'utilisation globale des ressources de calcul.Nous évaluerons et comparerons également la réutilisabilité des solutions proposées dans le contexte des systèmes HPC.Les expériences réalisées dans cette thèse nous ont par ailleurs amené à rechercher de nouveaux outils et techniques pour améliorer le coût et la reproductibilité des expériences.Nous présenterons un outil nommé NixOS-Compose capable de générer et de déployer des environnements logiciels distribués reproductibles.Nous étudierons de plus des techniques permettant de réduire le nombre de machines nécessaires pour expérimenter sur des intergiciels de grappe, tels que CiGri, tout en garantissant un niveau de réalisme acceptable pour le système final déployé.