Déchiffrer la complexité des interactions entre les protéoformes à l'aide de modèles de langage protéique basés sur l'évolution et la physique
Auteur / Autrice : | Julien Nguyen van |
Direction : | Elodie Laine, Sergei Grudinin |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 01/11/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....) |
Mots clés
Résumé
Ce projet vise à développer de nouveaux modèles d'apprentissage profond interprétables pour calculer des représentations significatives et informatives des protéoformes, afin de reconstruire des protéomes hautement spécialisés tels que ceux qui ont un impact sur des traits comportementaux complexes, en particulier l'apprentissage vocal chez les humains et les oiseaux chanteurs. L'objectif est de concevoir, de mettre en uvre et de déployer des algorithmes d'apprentissage fonctionnant sur du texte (séquences de protéines) et des graphes / nuages de points (structures 3D des protéines). La nouvelle structure de données hiérarchiques basée sur les graphes, déjà introduite dans des travaux préliminaires pour récapituler la diversité des protéoformes, sera mise à profit. Le défi consistera à encoder la sémantique évolutive et physique dans les représentations apprises. À l'instar de ce qui est observé dans la conception générative de protéines à partir de modèles, le modèle entraîné devrait être capable de générer de nouveaux protéoformes récapitulant les propriétés physico-chimiques et géométriques des protéoformes connus, au-delà des statistiques globales. Le projet relèvera le défi plus large du traitement de la masse de données hétérogènes relatives aux protéines, qui connaît une croissance exponentielle.