Apprentissage statistique pour le HPC

par Salah Zrigui

Projet de thèse en Informatique

Sous la direction de Denis Trystram et de Arnaud Legrand.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de MOAIS - Programmation parallèle, ordonnancement et synchronisation. (ancien ID) (equipe de recherche) depuis le 07-11-2017 .


  • Résumé

    Le sujet proposé ici porte sur l'étude d'algorithmes d'apprentissage statistique pour une meilleure utilisation des ressources dans les systèmes de calcul à large échelle (HPC pour High Performance Computing). Ce domaine de recherche du HPC porte sur l'exécution d'applications intensives (tâches parallèles) sur des plates-formes à large échelle. Ces dernières sont devenues au fil du temps de plus en plus complexes et les plus puissantes comportent actuellement plusieurs millions de processeurs. Elles sont constituées de processeurs hétérogènes (unités de calcul classiques et accélérateurs), de noeuds spécialisés dans les entrées/sorties avec des accès disques, de noeuds optimisés pour le routage, etc.. En conséquence, le système de gestion des ressources (qui est la couche de la pile logicielle en charge des mouvements de données -- allocation et ordonnancement des applications parallèles) doit être adapté pour prendre en compte cette hétérogénéité et cette diversité croissantes.

  • Titre traduit

    Machine Learning for optimizing resources in HPC


  • Résumé

    The proposed subject concerns the study of statistical learning algorithms for a better use of resources in HPC systems (High Performance Computing systems). The HPC research area focuses on the execution of intensive applications (parallel tasks) on large-scale platforms. Such platforms have become more complex and more powerful over the years. They consist of heterogeneous processors (classical computing units and accelerators), specialized nodes for inputs / outputs with disk access, nodes optimized for routing, etc... As a result, the resource management system (which is the software stack layer in charge of data movements - allocation and scheduling of parallel applications) Must be adapted to take into account this growing heterogeneity and diversity.