Apprentissage géométrique profond de variétés combiné avec des modèles de traitement du langage naturel pour prédire les mouvements des protéines
Auteur / Autrice : | Valentin Lombard |
Direction : | Élodie Laine, Sergei Grudinin |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 16/12/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....) |
Jury : | Président / Présidente : Slavica Jonic |
Examinateurs / Examinatrices : Marco Pasi | |
Rapporteur / Rapporteuse : Jean-Christophe Gelly, Florence Tama |
Mots clés
Résumé
Les protéines jouent un rôle central dans les processus biologiques, et comprendre comment elles se déforment et se déplacent est essentiel pour élucider leurs mécanismes fonctionnels. Malgré les récentes avancées dans les technologies à haut débit, qui ont élargi nos connaissances sur les structures protéiques, la prédiction précise de leurs différents états conformationnels et mouvements reste un défi majeur. Nous présentons deux approches complémentaires pour relever le défi de la compréhension et de la prédiction de l'ensemble de la variabilité conformationnelle des protéines. La première approche, appelée Dimensionality Analysis for protein Conformational Exploration (DANCE), permet une description systématique et complète de la variabilité conformationnelle des familles de protéines. DANCE prend en compte à la fois les structures expérimentales et prédites. Elle est adaptée à l'analyse des protéines individuelles jusqu'aux superfamilles. En l'utilisant, nous avons regroupé toutes les structures protéiques résolues expérimentalement disponibles dans la banque de données Protein Data Bank en collections conformationnelles et les avons caractérisées comme des ensembles de mouvements linéaires. Cette ressource facilite l'accès et l'exploitation des multiples états adoptés par une protéine et ses homologues. Au-delà de l'analyse descriptive, nous avons évalué des techniques classiques de réduction de la dimensionnalité pour échantillonner des états non observés sur un banc d'essai représentatif. Ce travail améliore notre compréhension de la manière dont les protéines se déforment pour accomplir leurs fonctions et ouvre la voie à une évaluation standardisée des méthodes conçues pour échantillonner et générer des conformations protéiques. La deuxième approche repose sur l'apprentissage profond pour prédire des représentations continues du mouvement des protéines directement à partir de séquences, sans avoir besoin de données structurelles. Ce modèle, appelé SeaMoon, utilise des embeddings de modèles de langage protéique (pLM) comme entrées dans un réseau neuronal convolutif léger comptant environ un million de paramètres entraînables. SeaMoon atteint un taux de réussite de 40 % lorsqu'il est évalué sur environ 1 000 collections de conformations expérimentales, capturant des mouvements au-delà de la portée des méthodes traditionnelles comme l'analyse des modes normaux, qui repose uniquement sur la géométrie 3D. De plus, SeaMoon se généralise à des protéines n'ayant aucune similitude de séquence détectable avec son ensemble d'entraînement et peut être facilement réentraîné avec des pLM mis à jour. Ces deux approches offrent un cadre unifié pour faire progresser notre compréhension de la dynamique des protéines. DANCE fournit une exploration détaillée des mouvements protéiques basée sur des données structurelles, tandis que SeaMoon démontre le potentiel des modèles d'apprentissage profond basés sur les séquences pour capturer des mouvements complexes sans dépendre d'informations structurelles explicites. Ensemble, elles ouvrent la voie à une compréhension plus complète de la variabilité conformationnelle des protéines et de son rôle dans la fonction biologique.