Développements méthodologiques pour l'identification in silico des métalloprotéines dans les protéomes bactériens : le cas des protéines à centre Fer-Soufre
Auteur / Autrice : | Johan Estellon |
Direction : | Claudine Médigue, Yves Vandenbrouck |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de la vie |
Date : | Soutenance le 22/10/2012 |
Etablissement(s) : | Grenoble |
Ecole(s) doctorale(s) : | École doctorale chimie et science du vivant (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Biologie à grande échelle (Grenoble ; 200.-2020) |
Jury : | Président / Présidente : Michel Sève |
Examinateurs / Examinatrices : Raphaël Guerois | |
Rapporteur / Rapporteuse : Christine Froidevaux, Frédéric Barras |
Mots clés
Résumé
Jusqu’à 40% des protéines sont connues pour fixer des métaux, ces hétéroatomes jouant un rôle capital dans la régulation, la catalyse ou le maintien de la structure de ces protéines. Ces métalloprotéines sont ubiquitaires et d’une importance primordiale dans les trois domaines du vivant. Cependant, les méthodes actuelles dédiées à l’identification des membres de cette grande famille dans les protéomes bactériens sont soit inadaptées pour des approches à grande échelle, soit présentent des performances relativement limitées en l’absence d’une structure tridimensionnelle résolue. Dans ce contexte, différents outils d’analyse de séquence ont été testés, en recherchant des descripteurs de ces protéines (e.g. motifs, domaines conservés, empreintes phylogénétiques). Pour pallier le relatif manque de sensibilité de ceux-ci, de nouveaux descripteurs ont été construits, dédiés spécifiquement à l’identification des protéines à centre fer-soufre : (i) des profils de co-conservation des ligands du métal et (ii) des profile-HMMs adaptés à la détection d’homologues distants. Les pouvoirs prédictifs respectifs de ces catégories de descripteurs ont été évalués sur un jeu de protéines fer-soufre expertisé, en les considérant soit séparément soit en combinaison. L’ensemble de ces descripteurs a finalement été intégré dans un modèle linéaire généralisé en utilisant la technique d’elastic-net. Le modèle prédictif obtenu a été évalué sur le protéome complet d’Escherichia coli, sur lequel il atteint une précision de 89% et une sensibilité de 83%. Enfin, il a été appliqué à environ 300 protéomes pour explorer différentes relations biologiques comme l’abondance relative des protéines Fe-S et la tolérance à l’oxygène des organismes auxquelles elles appartiennent.