Auto-guérison en ligne et non clairvoyante des exécutions de chaînes de traitement sur grilles de calcul : Méthodes et évaluation dans une science-gateway pour l’imagerie médicale
Auteur / Autrice : | Rafael Ferreira Da Silva |
Direction : | Frédéric Desprez, Tristan Glatard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 29/11/2013 |
Etablissement(s) : | Lyon, INSA |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : CREATIS - Centre de Recherche et d'Application en Traitement de l'Image et du Son, UMR5515 (Lyon, Rhône ; 1995-2006) |
Jury : | Président / Présidente : Johan Montagnat |
Examinateurs / Examinatrices : Frédéric Desprez, Tristan Glatard, Johan Montagnat, Eric Rutten, Thomas Fahringer, Silvia D. Olabarriaga | |
Rapporteurs / Rapporteuses : Eric Rutten, Thomas Fahringer |
Mots clés
Résumé
Les science-gateways, telles que la Plate-forme d’Imagerie Virtuelle (VIP), permettent l’accès à un grand nombre de ressources de calcul et de stockage de manière transparente. Cependant, la quantité d’informations et de couches intergicielles utilisées créent beaucoup d’échecs et d’erreurs de système. Dans la pratique, ce sont souvent les administrateurs du système qui contrôlent le déroulement des expériences en réalisant des manipulations simples mais cruciales, comme par exemple replanifier une tâche, redémarrer un service, supprimer une exécution défaillante, ou copier des données dans des unités de stockages fiables. De cette manière, la qualité de service fournie est correcte mais demande une intervention humaine importante. Automatiser ces opérations constitue un défi pour deux raisons. Premièrement, la charge de la plate-forme est en ligne, c’est-à-dire que de nouvelles exécutions peuvent se présenter à tout moment. Aucune prédiction sur l’activité des utilisateurs n’est donc possible. De fait, les modèles, décisions et actions considérés doivent rester simples et produire des résultats pendant l’exécution de l’application. Deuxièmement, la plate-forme est non-clairvoyante à cause du manque d’information concernant les applications et ressources en production. Les ressources de calcul sont d’ordinaire fournies dynamiquement par des grappes hétérogènes, des clouds ou des grilles de volontaires, sans estimation fiable de leur disponibilité ou de leur caractéristiques. Les temps d’exécution des applications sont difficilement estimables également, en particulier dans le cas de ressources de calculs hétérogènes. Dans ce manuscrit, nous proposons un mécanisme d’auto-guérison pour la détection autonome et traitement des incidents opérationnels dans les exécutions des chaînes de traitement. Les objets considérés sont modélisés comme des automates finis à états flous (FuSM) où le degré de pertinence d’un incident est déterminé par un processus externe de guérison. Les modèles utilisés pour déterminer le degré de pertinence reposent sur l’hypothèse que les erreurs, par exemple un site ou une invocation se comportant différemment des autres, sont rares. Le mécanisme d’auto-guérison détermine le seuil de gravité des erreurs à partir de l’historique de la plate-forme. Un ensemble d’actions spécifiques est alors sélectionné par règle d’association en fonction du niveau d’erreur.