Analyses de données in situ par tâches distribuées pour les simulations haute performance
Auteur / Autrice : | Amal Gueroudji |
Direction : | Bruno Raffin |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 26/05/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de Grenoble (2007-....) |
Equipe de recherche : Équipe-projet Mouvements de données pour le calcul haute performance (Montbonnot, Isère ; 2021-....) | |
Jury : | Président / Présidente : Yves Denneulin |
Examinateurs / Examinatrices : Robert Ross | |
Rapporteurs / Rapporteuses : Gabriel Antoniu, Laurent Colombet |
Mots clés
Résumé
Sur les systèmes à grande échelle, l'écart entre les performances des CPU et la de bande passante des disques ne cesse d'augmenter. Dans certains domaines, tels que les prévisions météorologiques et la fusion nucléaire, les modèles numériques génèrent des grandes quantités de données qu'un traitement post hoc classique n'est plus possible en raison des limites de la capacité de stockage et de la performance des entrées-sorties. Les approches in situ sont intéressantes pour éviter les accès aux disques dans ces cas et tirer pleinement parti de la plateforme HPC. Cependant, elles sont souvent complexes à mettre en place et peuvent nécessiter de redévelopper des versions parallèles des analyses.Dans notre travail, nous proposons un modèle qui est bien adapté aux traitements in situ qui combine des simulations régulières et des analyses irrégulières. Nous couplons le modèle MPI pour la simulation avec un paradigme par tâches distribuées pour l'analyse. Cela permet de réduire la complexité et de tirer le meilleur parti de chacun de ces deux puissants paradigmes. Nous proposons un modèle de couplage des deux paradigmes et le validons à l'aide d'un prototype appelé DEISA, qui permet de coupler des codes parallèles MPI avec des analyses écrites en Dask distribué.Le modèle de nécessite des modifications minimales des codes de simulation et d'analyse par rapport à leurs équivalents post hoc. Il donne accès à tout l'écosystème déjà existant à utiliser en in situ, comme les versions parallèles de Numpy, Pandas et scikit-learn. Nous introduisons de nouveaux concepts dans Dask distribué pour prendre en charge les analyses in situ de manière native. L'approche a été évaluée et comparée à des analyses post hoc sur deux supercalculateurs, et DEISA a été utilisé dans des cas de production. Les résultats sont très intéressants et montrent de bonnes performances avec un minimum d'efforts de codage.