Thèse soutenue

Modélisation par fragments de complexes protéine-ARN pour le design de protéines

FR  |  
EN
Auteur / Autrice : Anna Kravchenko
Direction : Malika Smaïl-TabboneIsaure Chauvot de Beauchêne
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/12/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Samuela Pasquali
Examinateurs / Examinatrices : Malika Smaïl-Tabbone, Isaure Chauvot de Beauchêne, Juan Cortés, Piotr Setny, Pablo Chacón, Martin Zacharias
Rapporteurs / Rapporteuses : Juan Cortés, Piotr Setny, Pablo Chacón

Résumé

FR  |  
EN

Les complexes protéine-ARN jouent un rôle crucial dans la régulation cellulaire. La prédiction de leur structure 3D a des applications dans la conception de protéines et de médicaments. Le projet ITN RNAct visait à combiner des méthodes expérimentales et informatiques pour concevoir de nouveaux "motifs de reconnaissance de l'ARN" (RRM) - domaines protéiques interagissant avec l'ARN simple brin (ARNsb) - pour la biologie synthétique et la bioanalyse. La modélisation des complexes protéine-ARNsb (amarrage) est ardue car l'ARNsb n'a pas de structure propre dans sa forme libre. L'amarrage traditionnelle échantillonne les positions relatives (poses) de 2 structures moléculaires et les note pour sélectionner les plus probables. Il n'est pas directement applicable ici en raison de l'absence de structures libres d'ARNsb, pas plus que l'apprentissage profond en raison du nombre trop faible de structures connues. L'amarrage par fragments, état de l'art pour l'ARNsb, amarre toutes les conformations possibles de fragments d'ARN sur une protéine et assemble les poses les mieux notées de manière combinatoire. Notre méthode ssRNA'TTRACT utilise le logiciel d'amarrage ATTRACT et sa représentation gros grain qui remplace des groupes d'atomes par une bille. Cependant, les paramètres ARN-protéine de sa fonction de notation (ASF) ne sont pas spécifiques à l'ARNsb et peuvent être optimisés. De plus, des caractéristiques spécifiques aux RRM peuvent être apprises et guider l'amarrage. Nous avons développé un pipeline d'amarrage RRM-ssRNA basé sur les données, pour actualiser une stratégie existante. Les RRM ont 2 acides aminés aromatiques de position conservée, chacun liant par empilement un nucléotide de l'ARN. Mon collègue H. Dhondge a regroupées les structures RRM-ARNsb connues sur critère géométrique et obtenu un ensemble de prototypes de coordonnées 3D de tels empilements dans les RRM. J'ai créé un pipeline qui prend en entrée une séquence de RRM et d'ARN et l'identification des nucléotides empilés, récupère la structure du RRM dans AlphaFoldDB, identifie les positions 3D possibles des nucléotides empilés et exécute ssRNA'TTRACT avec des contraintes de distance maximales vers chaque position. En parallèle, nous avons dérivé HIPPO (HIstogram-based Pseudo-POtential), un potentiel de notation pour les poses gros-grain RRM-ARNsb basé sur la fréquence des distances bille-bille dans les poses quasi-natives versus erronées. HIPPO combine 4 ensembles de paramètres en une note consensus, afin de prendre en compte les divers modes de liaison RRM-ARNsb. Testé dans une approche "leave-one-out", il atteint un enrichissement d'un facteur 3 en quasi-natives dans les 20% de poses mieux notées pour ½ des cas contre ¼ avec ASF, et 'un facteur 4 pour ⅓ des cas contre 7% avec ASF. Surprenamment, HIPPO obtient aussi de meilleurs résultats qu'ASF sur un ensemble test de protéines sans RRM, bien que entraîné sur des RRM. Les approches par fragment rencontrent un problème intrinsèque de notation car certains fragments se lient plus spécifiquement/fortement que d'autres. Or nous avons constaté que, pour le fragment le mieux noté par complexe, HIPPO sélectionne systématiquement plus de quasi-natifs qu'ASF. Cela nous a inspiré une approche d'amarrage incrémentale: chacune des poses bien notées d'un fragment sont utilisées comme graine pour construire une chaîne d'ARN complète de manière incrémentale. Cette stratégie élimine le besoin de contacts conservés connus, jusqu'alors nécessaires pour obtenir des modèles précis, ce qui la rend généralisable aux protéines sans RRM. Nos recherches futures visent à identifier le Η le plus performant pour chaque fragment, potentiellement par apprentissage automatique (profond). Notre approche pour dériver des paramètres de notation est en principe applicable à tout type de protéine/ligand et nous prévoyons de l'étendre à d'autres domaines de protéines liant l'ARN, ainsi qu'à l'ADNsb et aux peptides longs.