Analyse et optimisation des échanges inter-nuds dans un contexte MSA
Auteur / Autrice : | Thibaut Pepin |
Direction : | Guillaume Mercier |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 09/11/2023 |
Etablissement(s) : | Bordeaux |
Ecole(s) doctorale(s) : | École doctorale de mathématiques et informatique |
Partenaire(s) de recherche : | Laboratoire : LaBRI - Laboratoire Bordelais de Recherche en Informatique |
Equipe de recherche : Supports et Algorithmes pour les applications numériques hautes performances (SATANAS) |
Mots clés
Résumé
La course au petaflop et à l'exaflop a vu l'avènement de supercalculateurs de plus en plus hétérogènes. Le modèle « MSA » (Modular Supercomputing Architecture) est l'aboutissement de cette évolution. Un système MSA est composé de différents modules, chacun de ces modules étant un mini-supercalculateur avec une architecteur matérielle propre pour adresser un besoin particulier en capacité de calcul par des applications ciblées. Ces modules sont connectés entre eux avec un réseau d'interconnexion rapide et un environnement logiciel commun offrant la possibilité d'exécuter une application sur plusieurs modules en même temps. Cela permet aux applications d'utiliser à la fois des processeurs généralistes, mais aussi du matériel spécialisé tel que des processeurs neuromorphiques ou quantiques pour des phases spécifiques de calcul. En plus des unités de calcul, il est aussi possible que les réseaux d'interconnexions au sein de chaque module soit différent. Cette multiplicité potentielle de réseaux, ainsi que l'enchevêtrement hiérarchique de ces réseaux, impose une pression importante sur les bibliothèques de communication inter-nuds, telles que les implémentations du standard MPI. En effet, étant possible qu'une seule application s'exécute sur plusieurs modules en même temps, l'implémentation MPI doit être capable de faire passer les messages entre des processus MPI se situant sur différents modules. Il est donc nécessaire que l'implémentation MPI supporte 1) différents réseaux et 2) de faire transiter un unique message par différents réseaux. L'objectif de cette thèse est d'analyser les fonctionnalités et contraintes nécessaires apportées par le support de MSA, et de proposer des solutions pour une exécution optimisée sur ce type d'architecture. Le doctorant se basera sur l'expertise obtenu dans l'équipe encadrante sur le multi-rail multi-réseau présent dans MPC. Au travers de cette thèse, nous souhaitons étudier : - L'interface utilisateur pour le lancement d'un job MPI en contexte multi-module - La récupération d'information et la représentation de la topologie de l'ensemble des réseaux lors de l'exécution d'une application sur plusieurs modules - Analyse et développement d'algorithmes hiérarchiques adaptés au contexte MSA et prenant en compte la topologie réseau