Models de langage pour le conditionnement de generation de proteines
Auteur / Autrice : | Barthélémy Meynard |
Direction : | Martin Weigt, Riccardo Zecchina |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 17/06/2024 |
Etablissement(s) : | Sorbonne université en cotutelle avec Politecnico di Torino |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....) |
Jury : | Président / Présidente : Élodie Laine |
Examinateurs / Examinatrices : Sergei Grudinin, David Bikard | |
Rapporteur / Rapporteuse : Armita Nourmohammad, David Gfeller |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Nous commençons par examiner ce qui rend un modèle génératif efficace pour les séquences de protéines. Dans notre première étude, ''Interpretable Pairwise Distillations for Generative Protein Sequence Models'' nous comparons les modèles de réseaux de neurones complexes à des modèles de distributions pair à pair plus simples. Cette comparaison révèle que les modèles plus simples peuvent égaler de près la performance des modèles plus complexes dans la prédiction de l'effet des mutations sur les protéines. Cette découverte remet en question l'hypothèse selon laquelle les modèles plus complexes sont toujours meilleurs, préparant le terrain pour de plus amples explorations.Dans une seconde partie, nous nous penchons sur le conditionnement de séquence avec ''Generating Interacting Protein Sequences using Domain-to-Domain Translation'' Cette étude introduit une approche novatrice pour générer des séquences de protéines qui peuvent interagir avec d'autres protéines spécifiques. En traitant cela comme un problème de traduction, similaire aux méthodes utilisées dans le traitement du langage naturel, nous créons des séquences avec des fonctionnalités intentionnelles. De plus, nous abordons le défi crucial de la prédiction de l'interaction entre le récepteur des cellules T (TCR) et l'épitope dans ''TULIP—a Transformer based Unsupervised Language model for Interacting Peptides and T-cell receptors'' Cette étude introduit une approche d'apprentissage non supervisée pour prédire avec précision les liaisons TCR-épitope, surmontant les limitations de qualité des données et les biais de formation inhérents aux modèles précédents. Ces avancées soulignent le potentiel du conditionnement de séquence dans la création de designs de protéines fonctionnellement spécifiques et conscients de l'interaction. Enfin, nous explorons le conditionnement de structure dans ''Uncovering Sequence Diversity from a Known Protein Structure''. Ici, nous présentons InvMSAFold, une méthode qui produit des séquences de protéines diverses conçues pour se plier dans une structure spécifique. Cette approche met en lumière l'importance de considérer la structure finale de la protéine dans le processus de conception, permettant la génération de séquences qui sont non seulement diverses mais maintiennent également leur intégrité structurelle prévue.