Thèse soutenue

Description, déploiement et optimisation de chaînes de traitements d'analyse d'images médicales sur grilles de production

FR  |  
EN
Auteur / Autrice : Tristan Glatard
Direction : Johan MontagnatXavier Pennec
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2007
Etablissement(s) : Nice
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)

Résumé

FR  |  
EN

En permettant le partage à grande échelle de données et d'algorithmes et en fournissant une quantité importante de puissance de calcul et de stockage, les grilles de calcul sont des plates-formes intéressantes pour les applications d'analyse d'images médicales. Dans cette thèse, nous étudions un problème d'analyse d'images médicales qui s'avère être une application dimensionnante pour les grilles, conduisant au développement de nouvelles méthodes et outils pour la description, l'implémentation et l'optimisation de flots de traitements. Le problème applicatif étudié est l'évaluation de la précision d'algorithmes de recalage d'images médicales en l'absence de vérité terrain. Nous faisons passer à l'échelle une méthode statistique d'évaluation de ces algorithmes et nous montrons des résultats de précision sur une base de données liée au suivi de la radiothérapie du cerveau. Ces résultats permettent notamment de détecter des défauts très légers au sein des données. Nous étendons ce schéma pour quantifier l'impact de la compression des images sur la qualité du recalage. Cette application étant représentative de problèmes typiques survenant sur les grilles, nous nous attachons à son déploiement et à son exécution sur ce type d'infrastructures. Pour faciliter une parallélisation transparente, nous adoptons un modèle générique de flots de traitements, dont nous proposons une nouvelle taxonomie. Pour répondre aux limitations de performance des moteurs d'exécution de flots existants, nous présentons MOTEUR, qui permet d'exploiter les différents types de parallélisme inhérents à ces applications. La définition d'un nouvel opérateur de composition de données facilite la description des applications d'analyse d'images médicales sur les grilles. Par une comparaison entre la grille de production EGEE et des grappes dédiées de Grid'5000, nous mettons en évidence l'importance de la variabilité de la latence sur une grille de production. En conséquence, nous proposons un modèle probabiliste du temps d'exécution d'un flot de traitement sur une grille. Ce modèle est centré sur l'utilisateur : il considère la grille toute entière comme une boîte noire introduisant une latence aléatoire sur le temps d'exécution d'une tâche. A partir de ce modèle, nous proposons trois stratégies d'optimisation visant à réduire l'impact de la latence et de sa variabilité : (1) dans un flot de traitement, grouper les tâches séquentiellement liées permet de réduire la latence moyenne rencontrée, (2) optimiser la valeur du délai d'expiration des tâches prémunit contre les valeurs extrêmes de la latence et (3) optimiser la granularité des tâches permet de réduire le risque de rencontrer de fortes latences. Des accélérations significatives sont ainsi obtenues.