Thèse soutenue

Computational protein design : un outil pour l'ingénierie des protéines et la biologie synthétique

FR  |  
EN
Auteur / Autrice : David Mignon
Direction : Thomas Simonson
Type : Thèse de doctorat
Discipline(s) : Biologie
Date : Soutenance le 20/12/2017
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Interfaces : matériaux, systèmes, usages (Palaiseau, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de biochimie (Palaiseau, Essonne) - Laboratoire de Biochimie de l'Ecole polytechnique / BIOC
Établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Jury : Président / Présidente : Jean-François Gibrat
Examinateurs / Examinatrices : Thomas Simonson, Alain Denise, Sophie Barbe, Julien Bigot
Rapporteurs / Rapporteuses : Yves-Henri Sanejouand

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le « Computational protein design » ou CPD est la recherche des séquences d’acides aminés compatibles avec une structure protéique ciblée. L’objectif est de concevoir une fonction nouvelle et/ou d’ajouter un nouveau comportement. Le CPD est en développement dans de notre laboratoire depuis plusieurs années, avec le logiciel Proteus qui a plusieurs succès à son actif.Notre approche utilise un modèle énergétique basé sur la physique et s’appuie sur la différence d’énergie entre l’état plié et l’état déplié de la protéine. Au cours de cette thèse, nous avons enrichi Proteus sur plusieurs points, avec notamment l’ajout d’une méthode d’exploration Monte Carlo avec échange de répliques ou REMC. Nous avons comparé trois méthodes stochastiques pour l’exploration de l’espace de la séquence : le REMC, le Monte Carlo simple et une heuristique conçue pour le CPD, le «Multistart Steepest Descent » ou MSD. Ces comparaisons portent sur neuf protéines de trois familles de structures : SH2, SH3 et PDZ. En utilisant les techniques d’exploration ci-dessus, nous avons été en mesure d’identifier la conformation du minimum global d’énergie ou GMEC pour presque tous les tests dans lesquels jusqu’à 10 positions de la chaîne polypeptidique étaient libres de muter (les autres conservant leurs types natifs). Pour les tests avec 20 positions libres de muter, le GMEC a été identifié dans 2/3 des cas. Globalement, le REMC et le MSD donnent de très bonnes séquences en termes d’énergie, souvent identiques ou très proches du GMEC. Le MSD a obtenu les meilleurs résultats sur les tests à 30 positions mutables. Le REMC avec huit répliques et des paramètres optimisés a donné le plus souvent le meilleur résultat lorsque toutes les positions peuvent muter. De plus, comparé à une énumération exacte des séquences de faible énergie, le REMC fournit un échantillon de séquences de grande diversité.Dans la seconde partie de ce travail, nous avons testé notre modèle pour la conception de domaines PDZ. Pour l’état plié,nous avons utilisé deux variantes d’un modèle de solvant GB. La première utilise une frontière diélectrique protéine/solvant effective moyenne ; la seconde, plus rigoureuse, utilise une frontière exacte qui fluctue le long de la trajectoire MC. Pour caractériser l’état déplié, nous utilisons un ensemble de potentiels chimiques d’acide aminé ou énergies de références. Ces énergies de références sont déterminées par maximisation d’une fonction de vraisemblance afin de reproduire les fréquences d’acides aminés des domaines PDZ naturels. Les séquences conçues par Proteus ont été comparées aux séquences naturelles. Nos séquences sont globalement similaires aux séquences Pfam, au sens des scoresBLOSUM40, avec des scores particulièrement élevés pour les résidus au cœur de la protéine. La variante de GB la plus rigoureuse donne toujours des séquences similaires à des homologues naturels modérément éloignés et l’outil de reconnaissance de plis Super family appliqué à ces séquences donne une reconnaissance parfaite. Nos séquences ont également été comparées à celles du logiciel Rosetta. La qualité, selon les mêmes critères que précédemment, est très comparable, mais les séquences Rosetta présentent moins de mutations que les séquences Proteus.