Thèse soutenue

Algorithmes tolérants aux pannes et minimisant l'énergie pour les systèmes de tâches et les systèmes temps-réel

FR  |  
EN
Auteur / Autrice : Li Han
Direction : Yves RobertJing Liu
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/05/2020
Etablissement(s) : Lyon en cotutelle avec East China normal university (Shanghai)
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : établissement opérateur d'inscription : École normale supérieure de Lyon (2010-...)
Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Optimisation des ressources : modèles, algorithmes et ordonnancement
Jury : Président / Présidente : Brice Goglin
Examinateurs / Examinatrices : Yves Robert, Jing Liu, Brice Goglin, Alix Munier-Kordon, Denis Trystram, Véronika Rehn-Sonigo, Robert Speck, Frédéric Vivien
Rapporteurs / Rapporteuses : Alix Munier-Kordon, Denis Trystram

Résumé

FR  |  
EN

Cette thèse se concentre sur deux problèmes majeurs dans le contexte du calcul haute performance:la résilience et la consommation d'énergie.Le nombre d'unités de calcul dans les superordinateurs a considérablement augmenté ces dernièresannées, entraînant une augmentation de la fréquence des pannes. Le recours à des mécanismes detolérance aux pannes est maintenant critique pour les applications utilisant un grand nombre decomposants pendant une période de temps significative. Il est par ailleurs nécessaire de minimiserla consommation énergétique pour des raisons budgétaires et environnementales. Ceci est d'autantplus important que la tolérance aux pannes nécessite une redondance en temps ou en espace quiinduit un surcoût énergétique. Par ailleurs, certaines technologies qui réduisant la consommationd'énergie ont des effets négatifs sur les performances et la résilience.Nous concevons des algorithmes d'ordonnancement pour étudier les compromis entre performance,résilience et consommation d'énergie. Dans une première partie, nous nous concentrons surl'ordonnancement des graphes de tâches sujets à des pannes. La question est alors de décider quelletâche sauvegarder afin de minimiser le temps d'exécution. Nous concevons des solutions optimalespour des classes de graphes et fournissons des heuristiques pour le cas général. Nous considéronsdans une deuxième partie l'ordonnancement de tâches périodiques indépendantes sujettes à deserreurs silencieuses dans un contexte temps-réel. Nous étudions combien de réplicats sontnécessaires et l'interaction entre dates butoir, fiabilité, et minimisation d'énergie.