Thèse soutenue

Inférence des familles de protéines et de domaines protéiques à grande échelle

FR  |  
EN
Auteur / Autrice : Clément Rezvoy
Direction : Frédéric VivienDaniel Kahn
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/09/2011
Etablissement(s) : Lyon, École normale supérieure
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....)
Jury : Président / Présidente : Gilbert Deléage
Examinateurs / Examinatrices : Frédéric Vivien, Daniel Kahn, Gilbert Deléage, Dominique Lavenier, Marco Pagni, Johan Montagnat
Rapporteurs / Rapporteuses : Dominique Lavenier, Marco Pagni

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les domaines protéiques sont des segments indépendants qui sont présents de façon récurrente dans plusieurs protéines. L'arrangement combinatoire de ces domaines est à l'origine de la diversité structurale et fonctionnelle des protéines. Plusieurs méthodes ont été développées pour permettre d'inférer la décomposition des protéines en domaines ainsi que la classification de ces domaines en familles. L'une de ces méthodes, MkDom2, permet l'inférence des familles de domaines de façon gloutonne. les familles sont inférées l'une après l'autre de façon a créer un découpage des protéines en arrangement de domaines et un classement de ces domaines en familles. MkDom2 est a l'origine de la base de données ProDom et est essentiel pour sa mise à jour. L'augmentation exponentielle du nombre de séquences analyser a rendue obsolète cette méthode qui nécessite désormais plusieurs années de calcul pour calculer ProDom. nous proposons un nouvel algorithme, MPI_MkDom2, permettant l'exploration simultanée de plusieurs familles de domaines sur une plate-forme de calcul distribué. MPI_MkDom2 est un algorithme distribué et asynchrone gérant l'équilibrage de charge pour une utilisation efficace de la plate-forme de calcul; il assure la création d'un découpage non-recouvrant de l'ensemble des protéines. Une mesure de proximité entre les classifications de domaines est définie afin d'évaluer l'effet du parallélisme sur le partitionnement produit. Nous proposons un second algorithme MPI_MkDom3. permettant le calcul simultanée d'une classification des domaines protéiques et des protéines en familles partageant le même arrangement en domaines.