Nouveaux algorithmes de routage pour supercalculateurs exaflopiques hétérogènes
Auteur / Autrice : | John Gliksberg |
Direction : | Devan Sohier, Pedro Javier Garcia Garcia, Antoine Capra |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 25/11/2022 |
Etablissement(s) : | université Paris-Saclay en cotutelle avec Universidad de Castilla-La Mancha |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’informatique parallélisme réseaux algorithmes distribués (Saint-Quentin en Yvelines, Yvelines ; 2015-....) |
référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....) | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....) | |
Jury : | Président / Présidente : Maria Engracia Gómez Requena |
Examinateurs / Examinatrices : Brice Goglin, Enrique Vallejo, Emmanuelle Saillard, Marc Pérache | |
Rapporteurs / Rapporteuses : Brice Goglin, Enrique Vallejo |
Résumé
La construction de supercalculateurs performants nécessite d'optimiser les communications, et leur échelle exaflopique amène un risque inévitable de pannes relativement fréquentes.Pour un cluster avec un réseau et des équipements donnés, on améliore les performances en s'assurant que l'on sélectionne une bonne route pour chaque message tout en minimisant les conflits d'accès aux resources entre messages.Cette thèse se concentre sur la famille des réseaux fat-trees, pour laquelle nous donnons quelques grandes caractéristiques afin de mieux prendre en compte une classe réaliste de cette topologie, tout en conservant un avantage par rapport aux méthodes agnostiques.De plus, une approche d'évaluation statique partiellement nouvelle du risque de congestion est utilisée pour comparer les algorithmes.Une optimisation générique est présentée pour certaines applications sur des clusters avec des équipements hétérogènes.Les algorithmes proposés forment le résultat de plusieurs approches distinctes pour apporter des contributions dans le domaine du routage statique centralisé, en combinant rapidité de calcul, résilience aux pannes, et minimisation du risque de congestion.