Thèse soutenue

Tolérance automatique aux défaillances par points de reprise et retour en arrière dans les systèmes hautes performances à passage de messages

FR  |  
EN
Auteur / Autrice : Aurélien Bouteiller
Direction : Franck Cappello
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

L'augmentation du nombre de composants des architectures hautes performances fait surgir des problèmes de fiabilité : le temps moyen entre deux fautes est désormais de moins de 10 heures. Une solution pour assurer la progression d'un calcul numérique distribué en présence de fautes est d'enregistrer périodiquement des points de reprise. Cependant, l'état de chaque processus subit le non déterminisme des évènements réseau. Aussi, un protocole de tolérance aux fautes doit assurer la possibilité de restaurer un état global légitime depuis un ensemble de points de reprise. Notre travail a pour objectif l'étude des mécanismes automatiques de tolérance aux défaillances par points de reprise pour les applications à passage de messages utilisant le standard MPI. Nous présentons un environnement logiciel permettant l'expression d'algorithmes de tolérance aux défaillances et leur comparaison équitable dans un environnement uniforme. Nous exprimons plusieurs protocoles de tolérance aux défaillances (dont deux originaux) : un utilisant des points de reprise coordonnés, deux par enregistrement de messages pessimiste et trois par enregistrement de message causal. Nous les comparons expérimentalement, identifiant ainsi une fréquence de faute au delà de laquelle les protocoles par enregistrement de messages se comportent mieux que les protocoles coordonnés. Nous décrivons enfin un modélisation du protocole pessimiste adaptée aux réseaux à très haut débit. La performance de ces réseaux implique que l'utilisation de copies mémoires intermédiaires est très pénalisante. Nous présentons les performances d'une implémentation de ce protocole.