Systèmes surs de fonctionnement : étude et mise en œuvre d'un système à tolérance de fautes par contrôlé logiciel distribué
Auteur / Autrice : | Emmanuelle Renaux |
Direction : | Claude Humbert |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences appliquées |
Date : | Soutenance en 1992 |
Etablissement(s) : | Nancy 1 |
Partenaire(s) de recherche : | Autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Le système parfait n'a pas encore été inventé et malheureusement des fautes peuvent toujours apparaitre inopinément! La tolérance aux fautes, basée sur le concept de redondance, est une des méthodes appropriées pour conférer à un système de la sureté de fonctionnement. Le présent travail propose un système à tolérance de fautes ou une unité de contrôle supervise l'application et lui permet de tolérer les fautes matérielles ainsi que leurs retombées sur la partie logicielle (erreurs mémoire). Cette unité de contrôle lui confère fiabilité et disponibilité. De plus, la gestion de la tolérance aux fautes est assurée par logiciel. Cette approche a été préférée à celle matérielle pour sa plus grande souplesse et une gestion dynamique de la mise en œuvre des critères. Pour pallier aux problèmes de synchronisation et minimiser la dégradation des performances de l'application, les propriétés d'une architecture parallèle modulaire, articulée autour d'un réseau de transputeurs reliés par de puissants dispositifs de communication, ont été exploitées. Le gestionnaire du contrôle se compose d'un transputeur associé à une unité d'échange dédiée, ce qui autorise une communication rapide de données. Sous les hypothèses de non-interruption de service et de contrôle indépendant de l'application, les méthodes des masquages d'erreurs et correction de fautes ont été retenues. Un schéma de vote original a ensuite été défini. Il tire profit des résultats du modèle de diagnosabilité(ou problème de localisation de pannes dans les systèmes distribués) proposé par preparata, metze et chien. Ainsi, le contrôle est distribué et basé sur l'échange de données et de comptes rendus de comparaison. Cette stratégie de contrôle a été implantée sur l'architecture choisie et validée par un démonstrateur. Le bien fonde de la théorie s'est révélé lors de l'injection de fautes matérielles