Thèse soutenue

Développements méthodologiques pour l'identification in silico des métalloprotéines dans les protéomes bactériens : le cas des protéines à centre Fer-Soufre

FR  |  
EN
Auteur / Autrice : Johan Estellon
Direction : Claudine MédigueYves Vandenbrouck
Type : Thèse de doctorat
Discipline(s) : Sciences de la vie
Date : Soutenance le 22/10/2012
Etablissement(s) : Grenoble
Ecole(s) doctorale(s) : École doctorale chimie et science du vivant (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Biologie à grande échelle (Grenoble ; 200.-2020)
Jury : Président / Présidente : Michel Sève
Examinateurs / Examinatrices : Raphaël Guerois
Rapporteur / Rapporteuse : Christine Froidevaux, Frédéric Barras

Résumé

FR  |  
EN

Jusqu’à 40% des protéines sont connues pour fixer des métaux, ces hétéroatomes jouant un rôle capital dans la régulation, la catalyse ou le maintien de la structure de ces protéines. Ces métalloprotéines sont ubiquitaires et d’une importance primordiale dans les trois domaines du vivant. Cependant, les méthodes actuelles dédiées à l’identification des membres de cette grande famille dans les protéomes bactériens sont soit inadaptées pour des approches à grande échelle, soit présentent des performances relativement limitées en l’absence d’une structure tridimensionnelle résolue. Dans ce contexte, différents outils d’analyse de séquence ont été testés, en recherchant des descripteurs de ces protéines (e.g. motifs, domaines conservés, empreintes phylogénétiques). Pour pallier le relatif manque de sensibilité de ceux-ci, de nouveaux descripteurs ont été construits, dédiés spécifiquement à l’identification des protéines à centre fer-soufre : (i) des profils de co-conservation des ligands du métal et (ii) des profile-HMMs adaptés à la détection d’homologues distants. Les pouvoirs prédictifs respectifs de ces catégories de descripteurs ont été évalués sur un jeu de protéines fer-soufre expertisé, en les considérant soit séparément soit en combinaison. L’ensemble de ces descripteurs a finalement été intégré dans un modèle linéaire généralisé en utilisant la technique d’elastic-net. Le modèle prédictif obtenu a été évalué sur le protéome complet d’Escherichia coli, sur lequel il atteint une précision de 89% et une sensibilité de 83%. Enfin, il a été appliqué à environ 300 protéomes pour explorer différentes relations biologiques comme l’abondance relative des protéines Fe-S et la tolérance à l’oxygène des organismes auxquelles elles appartiennent.