Modèles probabilistes génératifs intégratifs pour les familles de protéines
Auteur / Autrice : | Giovanni Peinetti |
Direction : | Martin Weigt, Andrea Pagnani |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 28/06/2024 |
Etablissement(s) : | Sorbonne université en cotutelle avec Politecnico Di Torino |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Biologie computationnelle et quantitative |
Mots clés
Mots clés libres
Résumé
La conception de biomolécules artificielles fonctionnelles est l'un des principaux intérêts de la biotechnologie depuis quelques années. L'objectif est de concevoir des séquences artificielles qui n'existent pas dans la nature, mais qui ont une fonctionnalité donnée qui peut déjà exister dans la nature ou être totalement nouvelle. Les approches basées sur les données constituent l'une des stratégies les plus fructueuses. Dans le domaine de le Machine Learning, les modèles probabilistes génératifs sont des outils permettant de générer des séquences biomoléculaires artificielles. Parmi eux, les modèles génératifs spécifiques aux familles de protéines sont entraînés sur des Multiple Sequence Alignments de familles homologues qui consistent en des séquences positives non étiquetées. Dans la littérature, on trouve plusieurs exemples de modèles génératifs qui ont été construits avec succès pour générer des RNA et des protéines fonctionnels. S'appuyant sur le principe de l'entropie maximale, le Direct Coupling Analysis (DCA) sont basés sur la distribution de Boltzmann en physique. Ils sont construits en apprenant un modèle de Potts à partir de données via Maximum Likelihood et peuvent être utilisés pour faire le sampling des séquences artificielles. Aujourd'hui, grâce à l'avènement de nouvelles expériences quantitatives à haut débit, de plus en plus de séquences quantitativement annotées apparaissent. Il existe de nombreux types de données biologiques annotées disponibles : ⁃ Les données fonctionnelles peuvent être utilisées de manière semi-supervisée pour affiner les modèles génératifs en termes de spécificités fonctionnelles. ⁃ Les données structurelles provenant de séquences artificielles générées via ProteinMPNN et provenant de structures à haute résolution prédites grâce à AlphaFold. ⁃ Données évolutives provenant d'expériences de Directed Evolution Cette abondance d'informations offre des opportunités sans précédent pour améliorer les modèles génératifs, améliorant de manière significative leur précision et leur efficacité en biologie synthétique. L'objectif de cette thèse est le développement de modèles génératifs probabilistes intégratifs utilisant toutes les données dans le cadre de Energy Based Models (c'est-à-dire de DCA), créant un système de rétroaction capable de minimiser la production de séquences non fonctionnelles et capable d'élaborer de nouvelles séquences artificielles non fonctionnelles et de concevoir de nouvelles séquences artificielles présentant des caractéristiques spécifiques souhaitées, telles que la compatibilité structurelle.