Thèse soutenue

Apprentissage machine appliqué à l'analyse et à la prédiction des défaillances dans les systèmes HPC
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Marc Platini
Direction : Noël de PalmaThomas Ropars
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/05/2020
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Entreprise : Bull
Jury : Président / Présidente : Sara Bouchenak
Rapporteurs / Rapporteuses : Jean-Marc Menaud, Franck Cappello

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les systèmes informatiques dédiés à la haute performance (HPC) se livrent à une course à la puissance de calcul. Cette course se concrétise principalement par une augmentation de leur taille et de leur complexité. Cependant, cette augmentation entraîne des défaillances fréquentes qui peuvent réduire la disponibilité des systèmes HPC.Pour gérer ces défaillances et être capable de réduire leur influence sur les systèmes HPC, il est important de mettre en place des solutions permettant de comprendre les défaillances, voire de les prédire. En effet, les systèmes HPC produisent une grande quantité de données de supervision qui contiennent de nombreuses informations utiles à propos de leur état de fonctionnement. Cependant, l'analyse de ces données n'est pas facile à réaliser et peut être très fastidieuse car elles reflètent la complexité et la taille des systèmes HPC. Les travaux présentés dans cette thèse proposent d'utiliser des solutions d’apprentissage machine pour réaliser de manière automatisée cette analyse. De manière plus précise, cette thèse présente deux contributions principales : la première s'intéresse à la prédiction des surchauffes des processeurs dans les systèmes HPC, la deuxième se concentre sur l’analyse et la mise en évidence des relations entre les événements présents dans les journaux systèmes. Ces deux contributions sont évaluées sur des données réelles provenant d’un système HPC de grande taille utilisé en production.Pour prédire les surchauffes de processeur, nous proposons une solution qui utilise uniquement la température des processeurs. Elle repose sur l’analyse de la forme générale de la température avant un événement de surchauffe et sur l’apprentissage automatisé des corrélations entre cette forme et les événements de surchauffe grâce à un modèle d’apprentissage supervisé. L’utilisation de la forme générale des courbes et d'un modèle d'apprentissage supervisé permet l'apprentissage en utilisant des données de température avec une faible précision et en utilisant un nombre de cas de surchauffe restreint. L'évaluation de la solution montre qu'elle est capable de prédire plusieurs minutes en avance les surchauffes avec une précision et un rappel élevés. De plus, l’évaluation de ces résultats montre qu’il est possible d'utiliser des actions préventives reposant sur les prédictions faites par la solution pour réduire l'influence des surchauffes sur le système.Pour analyser et mettre en évidence de manière automatisée les relations causales entre dans les événements décrits dans les journaux des systèmes HPC, nous proposons une utilisation détournée d'un modèle d'apprentissage machine profond. En effet, ce type de modèle est classiquement utilisé pour des tâches de prédiction. Grâce à l'ajout d'une nouvelle couche proposée par des travaux de l'état de l'art étudiant les méthodes d'apprentissage machine, il est possible de déterminer l’importance des entrées de l’algorithme dans sa prédiction. En utilisant les informations sur l'importance des entrées, nous sommes capables de reconstruire les relations entre les différents événements. L’évaluation de la solution montre qu'elle est capable de mettre en évidence les relations de la grande majorité des événements survenant sur un système HPC. De plus, son évaluation par des administrateurs montre la validité des corrélations mises en évidence.Les deux contributions et leurs évaluations montrent le bénéfice de l'utilisation de solutions d'apprentissage machine pour la compréhension et la prédiction des défaillances dans les systèmes HPC en automatisant l'analyse des données de supervision.