Thèse soutenue

Models de langage pour le conditionnement de generation de proteines

FR  |  
EN
Auteur / Autrice : Barthélémy Meynard
Direction : Martin WeigtRiccardo Zecchina
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 17/06/2024
Etablissement(s) : Sorbonne université en cotutelle avec Politecnico di Torino
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....)
Jury : Président / Présidente : Élodie Laine
Examinateurs / Examinatrices : Sergei Grudinin, David Bikard
Rapporteur / Rapporteuse : Armita Nourmohammad, David Gfeller

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Nous commençons par examiner ce qui rend un modèle génératif efficace pour les séquences de protéines. Dans notre première étude, ''Interpretable Pairwise Distillations for Generative Protein Sequence Models'' nous comparons les modèles de réseaux de neurones complexes à des modèles de distributions pair à pair plus simples. Cette comparaison révèle que les modèles plus simples peuvent égaler de près la performance des modèles plus complexes dans la prédiction de l'effet des mutations sur les protéines. Cette découverte remet en question l'hypothèse selon laquelle les modèles plus complexes sont toujours meilleurs, préparant le terrain pour de plus amples explorations.Dans une seconde partie, nous nous penchons sur le conditionnement de séquence avec ''Generating Interacting Protein Sequences using Domain-to-Domain Translation'' Cette étude introduit une approche novatrice pour générer des séquences de protéines qui peuvent interagir avec d'autres protéines spécifiques. En traitant cela comme un problème de traduction, similaire aux méthodes utilisées dans le traitement du langage naturel, nous créons des séquences avec des fonctionnalités intentionnelles. De plus, nous abordons le défi crucial de la prédiction de l'interaction entre le récepteur des cellules T (TCR) et l'épitope dans ''TULIP—a Transformer based Unsupervised Language model for Interacting Peptides and T-cell receptors'' Cette étude introduit une approche d'apprentissage non supervisée pour prédire avec précision les liaisons TCR-épitope, surmontant les limitations de qualité des données et les biais de formation inhérents aux modèles précédents. Ces avancées soulignent le potentiel du conditionnement de séquence dans la création de designs de protéines fonctionnellement spécifiques et conscients de l'interaction. Enfin, nous explorons le conditionnement de structure dans ''Uncovering Sequence Diversity from a Known Protein Structure''. Ici, nous présentons InvMSAFold, une méthode qui produit des séquences de protéines diverses conçues pour se plier dans une structure spécifique. Cette approche met en lumière l'importance de considérer la structure finale de la protéine dans le processus de conception, permettant la génération de séquences qui sont non seulement diverses mais maintiennent également leur intégrité structurelle prévue.