Resilient scheduling algorithms for large-scale platforms

Valentin Le Fevre

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Algorithmes d’ordonnancement tolérants aux fautes pour les plates-formes à large échelle

FR |

EN

Auteur / Autrice :	Valentin Le Fevre
Direction :	Yves Robert
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 18/06/2020
Etablissement(s) :	Lyon
Ecole(s) doctorale(s) :	École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche :	établissement opérateur d'inscription : École normale supérieure de Lyon (2010-...)
	Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Optimisation des ressources : modèles, algorithmes et ordonnancement
Jury :	Président / Présidente : Olivier Beaumont
	Examinateurs / Examinatrices : Olivier Beaumont, Henri Casanova, Rami G. Melhem, Anne Benoit, Amina Guermouche
	Rapporteurs / Rapporteuses : Henri Casanova, Rami G. Melhem

Mots clés

FR |

EN

Mots clés contrôlés

Calcul intensif (informatique)

Mots clés libres

Checkpoint

Résilience

Calcul haute performance

Exascale

Modèles informatiques

Résumé

FR |

EN

Cette thèse se concentre sur un problème majeur dans le contexte du calcul haute performance : la résilience. Les machines de calcul étant de plus en plus grosses pour viser les 10^18 opérations de calcul par seconde (exascale), celles-ci sont sujettes à de nombreuses pannes. La réduction du temps de calcul et la gestion du nombre de fautes sont deux problématiques étroitement liées : par exemple la réplication (redondance de calcul) permet de subir moins d'erreurs mais induit uneune diminution du nombre de ressources disponibles. En particulier, cette thèse se concentre sur divers mécanismes de « checkpoint/restart » (sauvegarde de l'état d'une application pour repartir de celle-ci lors d'une panne): la première partie traite de checkpoints sur plusieurs niveaux, de l'utilisation de ressources supplémentaires pour palier la latence des systèmes, et de checkpoint dans des graphes de tâches quelconques. La deuxième partie traite de stratégies optimales de checkpoint quand elles sont couplées avec de la réplication (dans des chaines de tâches, sur des plates-formes hétérogènes et enfin avec de la duplication de processus). La dernière partie explore quelques problèmes d'ordonnancement liés aux perturbations croissantes dans les plates-formes à large échelle.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Algorithmes d’ordonnancement tolérants aux fautes pour les plates-formes à large échelle

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Algorithmes d’ordonnancement tolérants aux fautes pour les plates-formes à large échelle

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses