Développement de méthodes bioinformatiques pour l'analyse des régions protéiques non-globulaires et leur conservation au cours de l'évolution.
Auteur / Autrice : | Etienne Villain |
Direction : | Andrey Kajava, Philippe Fort |
Type : | Projet de thèse |
Discipline(s) : | Biologie Santé |
Date : | Inscription en doctorat le Soutenance le 03/12/2019 |
Etablissement(s) : | Montpellier |
Ecole(s) doctorale(s) : | Sciences Chimiques et Biologiques pour la Santé |
Partenaire(s) de recherche : | Laboratoire : CRBM - Centre de Recherche en Biologie cellulaire de Montpellier |
Jury : | Président / Présidente : Pedro Maldonado coutinho |
Examinateurs / Examinatrices : Andrey Kajava, Damiano Piovesan, Philippe Fort, Sofia Kossida, Albert Guskov | |
Rapporteur / Rapporteuse : Damiano Piovesan, Pedro Maldonado coutinho |
Mots clés
Résumé
Les protéines sont des composés majeurs de tous les systèmes vivants. Elles sont une classe de polymères composée de 20 résidus dacides aminés différents. Selon la séquence de ces résidus, la protéine adopte un repliement spatial spécifique qui détermine ses propriétés fonctionnelles. Jusquà récemment, à cause de limitations techniques les études se sont principalement portées sur les régions globulaires des protéines. Cependant, dautres régions telles que les régions transmembranaires, les régions amyloïdogéniques et les régions intrinsèquement désordonnées (communément nommées dans leur ensemble région non globulaire abrégée RNG) couvrent une large portion des protéines, sont impliquées dans une variété des fonctions cellulaires et sont associées à de nombreuses maladies. Ces régions sont supposées représenter une part importante de la matière noire de lunivers protéique (lensemble des protéines existantes) qui est supposée contenir des protéines de mécanismes cellulaires encore inconnus. Aujourdhui les nouvelles méthodes bio-informatiques pour la prédiction des RNG au niveau de la séquence couplées aux larges bases de données de séquences protéiques sont une opportunité de complémenter les études expérimentales par des analyses bio-informatiques à large échelle. Notre but principal a été, en utilisant ces méthodes et bases de données, de produire une vue globale de la distribution des RNG à léchelle de protéomes entiers, avec un intérêt particulier pour les régions amyloïdogéniques et détudier plus en détail les anomalies observables dans cette répartition. Nous avons sélectionné 94 protéomes pour couvrir autant que possible une proportion représentative de la diversité du vivant. Pour lannotation de ces RNG sur ces protéines nous avons développé un pipeline logiciel basé sur létat de lart des prédicteurs de RNG disponibles. En conséquence, nous avons pu identifier un certain nombre danomalies dans la distribution de ces RNG à léchelle despèce ou de famille de protéines. Parmi les anomalies observées, nous avons montré lenrichissement en régions amyloïdes des porines et illustré la proximité entre les motifs protéiques des porines et les motifs amyloïdes. Ce résultat appuie lhypothèse dune cytotoxicité des amyloïdes induite par la capacité des oligomères à perméabiliser la membrane cellulaire en adoptant des structures similaires aux porines. Une autre anomalie observée a été lenrichissement des protéines oncoprotectrices en régions amyloïdes. Dans le cadre dune collaboration, nos travaux danalyse bio-informatique ont été combinés avec des méthodes expérimentales pour létude dune isoforme de p53. Nous avons montré que la principale différence structurelle entre lisoforme et la protéine native était linstabilité du domaine de liaison à lADN qui apparaît être déstructuré dans le cas de lisoforme. Nous avons aussi montré en conséquence le risque dexposer une région amyloïde normalement enfouie dans le cur globulaire de p53. Finalement une des anomalies les plus fortes observées a été la faible fréquence des régions amyloïdes au sein des protéomes dorganismes thermophiles. Ceci nous a amené à étudier la composition des régions désordonnées en regard de la température optimale de croissance (abrégé TOC) des organismes procaryotes. Nous avons montré une forte corrélation notamment entre résidus chargés et apolaires au sein de ces régions et la TOC que nous avons pu lier aux propriétés particulières de ces résidus à haute température. Nous basant sur celle-ci, nous avons développé un logiciel, Ogmios, pour prédire la TOC dorganismes procaryotes selon la composition de leurs protéines. Ce logiciel peut notamment être utilisé pour prédire lenvironnement de forme de vie ancestrale daprès la séquence inférée de leurs protéines.