Déchiffrer la complexité des interactions entre les protéoformes à l'aide de modèles de langage protéique basés sur l'évolution et la physique

Julien Nguyen van

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Déchiffrer la complexité des interactions entre les protéoformes à l'aide de modèles de langage protéique basés sur l'évolution et la physique

FR |

EN

Auteur / Autrice :	Julien Nguyen van
Direction :	Elodie Laine, Sergei Grudinin
Type :	Projet de thèse
Discipline(s) :	Sciences et technologies de l'information et de la communication
Date :	Inscription en doctorat le 01/11/2023
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche :	Laboratoire : Biologie computationnelle, quantitative et synthetique

Mots clés

FR |

EN

Mots clés libres

Protéines

Modèles de language

Apprentissage profond

Évolution

Physique

Interactions

Résumé

FR |

EN

Ce projet vise à développer de nouveaux modèles d'apprentissage profond interprétables pour calculer des représentations significatives et informatives des protéoformes, afin de reconstruire des protéomes hautement spécialisés tels que ceux qui ont un impact sur des traits comportementaux complexes, en particulier l'apprentissage vocal chez les humains et les oiseaux chanteurs. L'objectif est de concevoir, de mettre en uvre et de déployer des algorithmes d'apprentissage fonctionnant sur du texte (séquences de protéines) et des graphes / nuages de points (structures 3D des protéines). La nouvelle structure de données hiérarchiques basée sur les graphes, déjà introduite dans des travaux préliminaires pour récapituler la diversité des protéoformes, sera mise à profit. Le défi consistera à encoder la sémantique évolutive et physique dans les représentations apprises. À l'instar de ce qui est observé dans la conception générative de protéines à partir de modèles, le modèle entraîné devrait être capable de générer de nouveaux protéoformes récapitulant les propriétés physico-chimiques et géométriques des protéoformes connus, au-delà des statistiques globales. Le projet relèvera le défi plus large du traitement de la masse de données hétérogènes relatives aux protéines, qui connaît une croissance exponentielle.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Déchiffrer la complexité des interactions entre les protéoformes à l'aide de modèles de langage protéique basés sur l'évolution et la physique

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Déchiffrer la complexité des interactions entre les protéoformes à l'aide de modèles de langage protéique basés sur l'évolution et la physique

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses