Criblage virtuel sur grille de composés isolés au Vietnam

par The Quang Bui

Thèse de doctorat en Informatique

Sous la direction de Vincent Breton.

Soutenue le 26-06-2015

à Clermont-Ferrand 2 , dans le cadre de École doctorale des sciences pour l'ingénieur (Clermont-Ferrand) , en partenariat avec Laboratoire de Physique Corpusculaire (Aubière, Puy-de-Dôme) (laboratoire) et de Laboratoire de Physique Corpusculaire - Clermont Auvergne / LPC (laboratoire) .

Le président du jury était David R. C. Hill.

Le jury était composé de Vincent Breton, Jean-Marc Pierson, Emmanuel Medernach, Sorina Pop.

Les rapporteurs étaient Ziad El Bitar, Christian Pérez.


  • Résumé

    L’Institut National des Produits Chimiques de l’Académie des Sciences du Vietnam (INPC) développe depuis plusieurs années une activité autour de la recherche de nouveaux médicaments issus de la biodiversité. Le développement d’un nouveau médicament prend de l’ordre d’une dizaine d’années et passe par plusieurs phases. Dans la phase de découverte, l’activité des composés chimiques sur une cible biologique est mesurée afin de mettre en évidence une action inhibitrice. Le développement d’approches in silico pour le criblage virtuel des composés chimiques est une alternative aux approches classiques in vitro beaucoup plus coûteuses à mettre en œuvre. L’utilisation de la grille a été identifiée comme une voie économiquement prometteuse pour accompagner la recherche de nouveaux médicaments au Vietnam. En effet, le développement de nouvelles stratégies basées sur l’utilisation de plates-formes de soumission de tâches (DIRAC, HTCaaS) a permis d’améliorer considérablement le taux de succès et le confort des utilisateurs, ouvrant la voie à une démocratisation de la grille.Dans ce contexte, l’objectif poursuivi dans le cadre de cette thèse est d’étudier dans quelle mesure des plates-formes multidisciplinaires pouvaient répondre aux besoins des chimistes de l’INPC. Le travail s’est concentré sur les modalités d’un partage équitable d’une plate-forme de soumission de tâches sur la grille par une ou plusieurs communautés d’utilisateurs. L’ordonnancement des tâches sur un serveur commun doit permettre que les différents groupes aient une expérience positive et comparable. Sur les infrastructures de grille EGEE et EGI en Europe , on peut distinguer deux grandes catégories d’utilisateurs : les utilisateurs « normaux » qui vont solliciter les ressources pour des tâches requérant typiquement de quelques dizaines à quelques centaines d’heures de calcul, et les « gros » utilisateurs qui vont lancer des grandes productions nécessitant le traitement de plusieurs milliers de tâches pendant des dizaines, voire des centaines de milliers d’heures de calcul. Les stratégies d’ordonnancement déployées aujourd’hui sur les plates-formes comme DIRAC ou HTCaaS ne permettent pas de servir de façon optimale et simultanée ces deux familles d’utilisateurs.Le manuscrit présente une évaluation par simulation des performances de plusieurs stratégies d’ordonnancement des tâches d’une plate-forme soumettant des jobs pilotes. L’outil SimGrid a permis de simuler l’infrastructure de grille régionale déployée en Auvergne à partir de traces archivées de son utilisation. Après évaluation des performances de plusieurs politiques d’ordonnancement tirées de la littérature, une nouvelle politique a été proposée dans laquelle les utilisateurs normaux et les très gros utilisateurs sont gérés de façon indépendante. Grâce à cette politique, le ralentissement expérimenté par les très gros utilisateurs est réduit significativement sans pénaliser excessivement les utilisateurs normaux. L’étude a été étendue à une fédération de clouds utilisant les mêmes ressources et arrive aux mêmes conclusions. Les performances des politiques d’ordonnancement ont ensuite été évaluées sur des environnements de production, à savoir l’infrastructure de grille européenne EGI et l’infrastructure nationale de supercalculateurs de la Corée du Sud. Un serveur DIRAC a été adossé aux ressources de l’organisation virtuelle biomédicale d’EGI pour étudier les ralentissements observés par les utilisateurs de ce serveur. Pareillement, les ralentissements expérimentés par les utilisateurs de la plate-forme HTCaaS au KISTI ont été observés en excellent accord avec les résultats de simulation avec SimGrid.Ces travaux confirment la faisabilité et l’intérêt d’une plate-forme unique au Vietnam au service des communautés scientifiques consommatrices des ressources académiques de grille et de cloud, notamment pour la recherche de nouveaux médicaments.

  • Titre traduit

    Virtual screening of drug candidates identified in Vietnam


  • Résumé

    Virtual Screening (VS) is a computational technique used in the drug discovery process to select the most promising candidate drugs for in vitro testing from millions of chemical compounds. This method can offer an efficient alternative to reduce the cost of drug discovery and platform. The Natural Products Chemistry Institute of the Academy of Sciences of Vietnam (INPC) collects samples from local biodiversity and determines the 3D structure of single molecules. Their challenge is to set up a virtual screening platform on grid computing for their chemists to process their data. However, as the number of users who might have a wide range of virtual screening applications (in terms of the number of tasks and execution time) increases with limited available computing resources, it becomes crucial to devise an effective scheduling policy that can ensure a certain degree of fairness, user satisfaction and overall system throughput. In this context, the thesis focuses on an effective scheduling policy for the virtual screening workflow where multiple users with varying numbers of tasks are actively sharing a common system infrastructure. We have researched in theory and proposed some candidate policies. With the simulation results and the experimentation results in real system, we proposed the best policy for the fairness between users, which can be applied to INPC virtual screening platform.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Clermont Auvergne. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.