Thèse soutenue

Apprentissage sur heuristiques simples pour l'ordonnancement online de tâches parallèles

FR  |  
EN
Auteur / Autrice : Danilo Carastan dos Santos
Direction : Denis TrystramRaphael Yokoingawa De Camargo
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/11/2019
Etablissement(s) : Université Grenoble Alpes (ComUE) en cotutelle avec Universidade Federal do ABC
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble - Center for Mathematics, Computation and Cognition (Brésil)
Equipe de recherche : DATAMOVE - Laboratório de Programação Paralela e Distribuida
Jury : Président / Présidente : Alfredo Goldman
Examinateurs / Examinatrices : Sarita Bruschi, Éric Gaussier
Rapporteurs / Rapporteuses : Alfredo Goldman, Martin Schulz

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Les plate-formes de Calcul Haute Performance (High Performance Computing, HPC) augmentent en taille et en complexité. De manière contradictoire, la demande en énergie de telles plates-formes a également rapidement augmenté. Les supercalculateurs actuels ont besoin d’une puissance équivalente à celle de toute une centrale d’énergie. Dans le but de faire un usage plus responsable de ce puissance de calcul, les chercheurs consacrent beaucoup d’efforts à la conception d’algorithmes et de techniques permettant d’améliorer différents aspects de performance, tels que l’ordonnancement et la gestion des ressources. Cependent, les responsables des plate-formes HPC hésitent encore à déployer des méthodes d’ordonnancement à la fine pointe de la technologie et la plupart d’entre eux recourent à des méthodes heuristiques simples, telles que l’EASY Backfilling, qui repose sur un tri naïf premier arrivé, premier servi. Les nouvelles méthodes sont souvent complexes et obscures, et la simplicité et la transparence de l’EASY Backfilling sont trop importantes pour être sacrifiées.Dans un premier temps, nous explorons les techniques d’Apprentissage Automatique (Machine Learning, ML) pour apprendre des méthodes heuristiques d’ordonnancement online de tâches parallèles. À l’aide de simulations et d’un modèle de génération de charge de travail, nous avons pu déterminer les caractéristiques des applications HPC (tâches) qui contribuent pour une réduction du ralentissement moyen des tâches dans une file d’attente d’exécution. La modélisation de ces caractéristiques par une fonction non linéaire et l’application de cette fonction pour sélectionner la prochaine tâche à exécuter dans une file d’attente ont amélioré le ralentissement moyen des tâches dans les charges de travail synthétiques. Appliquées à des traces de charges de travail réelles de plate-formes HPC très différents, ces fonctions ont néanmoins permis d’améliorer les performances, attestant de la capacité de généralisation des heuristiques obtenues.Dans un deuxième temps, à l’aide de simulations et de traces de charge de travail de plusieurs plates-formes HPC réelles, nous avons effectué une analyse approfondie des résultats cumulés de quatre heuristiques simples d’ordonnancement (y compris l’EASY Backfilling). Nous avons également évalué des outres effets tels que la relation entre la taille des tâches et leur ralentissement, la distribution des valeurs de ralentissement et le nombre de tâches mises en calcul par backfilling, par chaque plate-forme HPC et politique d’ordonnancement. Nous démontrons de manière expérimentale que l’on ne peut que gagner en remplaçant l’EASY Backfilling par la stratégie SAF (Smallest estimated Area First) aidée par backfilling, car elle offre une amélioration des performances allant jusqu’à 80% dans la métrique de ralentissement, tout en maintenant la simplicité et la transparence d’EASY Backfilling. La SAF réduit le nombre de tâches à hautes valeurs de ralentissement et, par l’inclusion d’un mécanisme de seuillage simple, nous garantonts l’absence d’inanition de tâches.Dans l’ensemble, nous avons obtenu les remarques suivantes : (i) des heuristiques simples et efficaces sous la forme d’une fonction non linéaire des caractéristiques des tâches peuvent être apprises automatiquement, bien qu’il soit subjectif de conclure si le raisonnement qui sous-tend les décisions d’ordonnancement de ces heuristiques est clair ou non. (ii) La zone (l’estimation du temps d’exécution multipliée par le nombre de processeurs) des tâches semble être une propriété assez importante pour une bonne heuristique d’ordonnancement des tâches parallèles, car un bon nombre d’heuristiques (notamment la SAF) qui ont obtenu de bonnes performances ont la zone de la tâche comme entrée (iii) Le mécanisme de backfilling semble toujours contribuer à améliorer les performances, bien que cela ne remédie pas à un meilleur tri de la file d’attente de tâches, tel que celui effectué par SAF.