Thèse soutenue

Caractérisation structurale de la liaison de l'ARN aux domaines à Motif de Reconnaissance de l'ARN (RRM) à l'aide de l'intégration de données, la modélisation 3D et la simulation dynamique moléculaire

FR  |  
EN
Auteur / Autrice : Hrishikesh Dhondge
Direction : Marie-Dominique DevignesIsaure Chauvot de Beauchêne
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/07/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Julie Thompson
Examinateurs / Examinatrices : Marie-Dominique Devignes, Isaure Chauvot de Beauchêne, Stanisław Dunin-Horkawicz, Olga V. Kalinina, Alain Denise
Rapporteurs / Rapporteuses : Julie Thompson, Stanisław Dunin-Horkawicz, Olga V. Kalinina

Résumé

FR  |  
EN

Cette thèse a été réalisée dans le cadre d'un projet Européen plus vaste (ITN RNAct) dans lequel des approches informatiques et biologiques étaient combinées pour progresser vers la synthèse de nouveaux domaines protéiques capables de se fixer sur des séquences spécifiques d'ARN. L'objectif spécifique de cette thèse était de concevoir et développer des outils informatiques pour mieux exploiter les connaissances existantes sur les domaines à Motif de Reconnaissance de l'ARN (RRM) lors de la modélisation 3D des complexes RRM-ARN. Les domaines RRMs représentent 50% de toutes les protéines fixant l'ARN et sont trouvées dans environ 2% de toutes les régions codantes du génome humain. Cependant, du fait de la grande diversité des domaines RRMs, il n'y a eu jusqu'à présent que très peu de succès rapportés dans la conception de nouveaux domaines RRMs. La contribution centrale de cette thèse est la construction d'une base de données relationnelle appelée (InteR3M) qui intègre des informations de séquence, de structure et de fonction sur les domaines RRMs. La base de données InteR3M (href{https://inter3mdb.loria.fr/}{https://inter3mdb.loria.fr/}) contient 400,892 instances de domaines RRM (dérivées d'entrées UniProt) et 1,456 structures 3D déterminées expérimentalement (dérivées d'entrées PDB), qui correspondent à seulement 303 instances distinctes de domaines RRM. De plus, InteR3M contient 459,859 interactions atomiques entre RRM et acides nucléiques, dérivées de 656 structures 3D dans lesquelles le domaine RRM forme un complexe avec un ARN ou un ADN. Au cours du processus de collecte de données, des incohérences ont été détectées dans la classification de plusieurs instances de domaines RRMs dans les bases de données de domaines protéiques populaires CATH et Pfam. Ceci m'a conduit à proposer une approche originale (CroMaSt) pour résoudre ce problème, à partir de la mise en correspondance des instances structurales de domaines RRMs entre ces deux bases de données et de l'alignement structural des domaines sans correspondance avec une structure prototype du domaine RRM. Le workflow CroMast est disponible sur le Workflow Hub Européen (href{https://workflowhub.eu/workflows/390}{https://workflowhub.eu/workflows/390}). Les informations de séquence et de structure intégrées dans la base de données InteR3M ont ensuite été utilisées pour aligner entre eux tous les domaines RRM et cartographier toutes les interactions RRM-ARN sur cet alignement en vue d'identifier les différents modes de liaison de l'ARN aux domaines RRM. Ceci a conduit au développement, avec nos partenaires RNAct de VUB (Vrije Universiteit Brussel), de l'outil `RRMScorer'. Cet outil contribue au déchiffrage du code de reconnaissance RRM-ARN en calculant les probabilités de liaison entre les nucléotides de l'ARN et les acides aminés des domaines RRM à certaines positions de l'alignement. Les contacts atomiques entre RRMs et ARN ont aussi été utilisés pour identifier des motifs d'ancrage, c'est-à-dire des prototypes des positions 3D atomiques (relatives au squelette protéique) d'un nucléotide interagissant par empilement (`stacking') avec un acide aminé aromatique conservé. Ces ancres peuvent être utilisées comme des contraintes dans un protocole d'amarrage ancré (`anchored docking'). Le pipeline `RRM-RNA dock' est présenté ici et il intègre à la fois les motifs d'ancrage extraits de la base de données InteR3M et les scores de liaison de RRMScorer. Finalement, la simulation en dynamique moléculaire (MD) est un autre outil informatique testé dans cette thèse pour contribuer à la modélisation 3D des complexes RRM-ARN. Des protocoles MD préliminaires mais prometteurs sont décrits au titre d'essais visant à distinguer entre les complexes RRM-ARN à liaison forte ou faible.