Thèse en cours

Déchiffrer la complexité des interactions entre les protéoformes à l'aide de modèles de langage protéique basés sur l'évolution et la physique

FR  |  
EN
Auteur / Autrice : Julien Nguyen van
Direction : Elodie LaineSergei Grudinin
Type : Projet de thèse
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Inscription en doctorat le 01/11/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....)

Résumé

FR  |  
EN

Ce projet vise à développer de nouveaux modèles d'apprentissage profond interprétables pour calculer des représentations significatives et informatives des protéoformes, afin de reconstruire des protéomes hautement spécialisés tels que ceux qui ont un impact sur des traits comportementaux complexes, en particulier l'apprentissage vocal chez les humains et les oiseaux chanteurs. L'objectif est de concevoir, de mettre en œuvre et de déployer des algorithmes d'apprentissage fonctionnant sur du texte (séquences de protéines) et des graphes / nuages de points (structures 3D des protéines). La nouvelle structure de données hiérarchiques basée sur les graphes, déjà introduite dans des travaux préliminaires pour récapituler la diversité des protéoformes, sera mise à profit. Le défi consistera à encoder la sémantique évolutive et physique dans les représentations apprises. À l'instar de ce qui est observé dans la conception générative de protéines à partir de modèles, le modèle entraîné devrait être capable de générer de nouveaux protéoformes récapitulant les propriétés physico-chimiques et géométriques des protéoformes connus, au-delà des statistiques globales. Le projet relèvera le défi plus large du traitement de la masse de données hétérogènes relatives aux protéines, qui connaît une croissance exponentielle.