Thèse en cours

Placement intelligent des fichiers dans un stockage hiérarchisé par exploitation des cycles de vie pour le HPC

FR  |  
EN
Auteur / Autrice : Adrian Khelili
Direction : Soraya Zertal
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/02/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique - Parallélisme Réseaux et Algorithmes Distribuée
Référent : Université de Versailles-Saint-Quentin-en-Yvelines

Résumé

FR  |  
EN

Avec l'explosion de la quantité de données pouvant être collectées et traitées, les nouvelles machines à haute performance doivent être aptes à déplacer d'importants volumes de données vers les applications qui les utilisent sans causer leur ralentissement. De plus, la disparité grandissante entre la performance des noeuds de calcul et celle des baies de stockage crée des phénomènes de congestion d'E/S. Pour éviter ce problème, des technologies et méthodes de stockage innovantes doivent être proposées pour s'assurer que les super-calculateurs puissent réaliser efficacement ces mouvements de données. Une solution possible proposée par la communauté scientifique est l'utilisation de emph{burst buffers}, des couches de mémoires intermédiaires rapides, composées de RAM et de NVME et positionnées entre la baie de stockage et les noeuds de calcul de manière à contenir les fichiers lus et écrits par les applications en fonction de la chronologie de leurs accès, plutôt que par leurs cycles de vie. Pourtant, un placement plus intelligent des fichiers dans cette hiérarchie constitue un point fondamental pour améliorer la performance du système global, car tous les fichiers ne bénéficient pas de la même manière des performances de ces technologies, surtout lorsqu'il s'agit d'applications scientifiques complexes qui s'enchaînent et réutilisent les mêmes fichiers. Le but de cette thèse est de déterminer une stratégie de placement intelligent à grain fin à l'échelle du fichier en considérant son cycle de vie (ouvertures, fermetures, suppression, création) et anticiper le placement des données en conséquence. Cela procure une intelligence à grain fin au burst buffer pour s'adapter au mieux aux applications rencontrées.