Exploitation de signatures des repliements protéiques pour décrire le continuum ordre/désordre au sein des protéomes
| Auteur / Autrice : | Apolline Bruley |
| Direction : | Isabelle Callebaut |
| Type : | Thèse de doctorat |
| Discipline(s) : | Bioinformatique et biologie des systèmes |
| Date : | Soutenance le 05/12/2022 |
| Etablissement(s) : | Sorbonne université |
| Ecole(s) doctorale(s) : | École doctorale Complexité du vivant (Paris ; 2009-....) |
| Partenaire(s) de recherche : | Laboratoire : Institut de minéralogie, de physique des matériaux et de cosmochimie (Paris ; 1997-....) |
| Jury : | Président / Présidente : Ingrid Lafontaine |
| Examinateurs / Examinatrices : Elodie Duprat, Anne Lopes | |
| Rapporteurs / Rapporteuses : Raphaël Guerois, Jean-Christophe Gelly |
Mots clés
Résumé
Une fraction significative des protéomes reste non annotée, laissant inaccessible une partie du répertoire fonctionnel de la vie, incluant des innovations moléculaires ayant une valeur thérapeutique ou environnementale. Le manque d'annotation fonctionnelle est en partie dû aux limites des approches actuelles pour la détection de relations cachées, ou à des caractéristiques spécifiques telles que le désordre. L'objectif de ma thèse a été de développer des approches méthodologiques reposant sur les signatures structurales des domaines repliés, afin de caractériser plus avant les séquences protéiques dont la fonction est inconnue, même en l'absence d'informations évolutives. Tout d'abord, j'ai développé un score permettant d'estimer le potentiel de repliement d'une séquence d'acides aminés, basé sur sa densité en amas hydrophobes, correspondant principalement aux structures secondaires régulières. J'ai décrit le continuum entre l'ordre et le désordre, couvrant différents états allant des conformations étendues aux globules fondus et ai caractérisé des cas d'ordre conditionnel. Ensuite, j'ai combiné ce score avec les prédictions de structure 3D d'AlphaFold2 (AF2) disponibles pour 21 protéomes de référence. Une grande fraction des acides aminés des modèles AF2 associés à un très faible index de confiance est incluse dans des segments non repliables, soutenant la qualité d'AF2 comme prédicteur du désordre. Cependant, dans chaque protéome, de longs segments repliables avec des prédictions AF2 de faible confiance présentent également des caractéristiques de domaines solubles et repliés. Cela suggère un ordre caché (conditionnel ou inconditionnel), qui n'est pas détecté par AF2 en raison du manque d'informations évolutives, ou des motifs de repliement non répertoriés. Enfin, à l'aide de ces outils, j'ai effectué une exploration préliminaire de protéines ou de régions non annotées, identifiées via le développement et l'application d'une nouvelle procédure d'annotation. Bien que ces séquences soient enrichies en désordre, une part importante d'entre elles présente des caractéristiques de type globulaire soluble. Ces séquences constituent de bons candidats pour de futures validations et caractérisations expérimentales. De plus, l'analyse de gènes de novo validés expérimentalement m'a permis de contribuer au débat encore ouvert sur les caractéristiques structurales des protéines codées par ces gènes, qui présentent un enrichissement en désordre et une grande diversité d'états structuraux.