Thèse soutenue

Le design de protéines par apprentissage profond et raisonnement automatique

FR  |  
EN
Auteur / Autrice : Marianne Defresne
Direction : Sophie BarbeThomas Schiex
Type : Thèse de doctorat
Discipline(s) : Ingénieries microbienne et enzymatique
Date : Soutenance le 30/11/2023
Etablissement(s) : Toulouse, INSA
Ecole(s) doctorale(s) : École doctorale Sciences écologiques, vétérinaires, agronomiques et bioingénieries
Partenaire(s) de recherche : Laboratoire : TBI - Toulouse Biotechnology Institute, Bio & Chemical Engineering - Toulouse Biotechnology Institute / TBI
Jury : Président / Présidente : Céline Hudelot
Examinateurs / Examinatrices : Sergey Ovchinnikov
Rapporteurs / Rapporteuses : Jean-Christophe Gelly, Tias Guns

Résumé

FR  |  
EN

Les protéines sont des molécules complexes qui remplissent de nombreuses fonctions dans les organismes vivants. Certaines de ces fonctions peuvent être reprises pour des applications en biotechnologie, médecine, chimie verte, etc. L’objectif du design computationnel de protéines (CPD) est de prédire une séquence de protéine adaptée à une application. La fonction d’une protéine étant étroitement liée à sa structure 3D, le CPD peut être formulé comme la prédiction d’une séquence se repliant sur une structure cible et remplissant ainsi la fonction d’intérêt. Les approches existantes sont basées soit sur l’optimisation d’une fonction d’énergie évaluant les interactions au sein d’une protéine, ou sont soit purement basées sur l’apprentissage profond. Dans cette thèse, nous présentons une nouvelle approche hybride pour le CPD, combinant le Deep Learning (DL) et le raisonnement automatique.Notre première contribution consiste à catégoriser les approches DL existantes selon la représentation des protéines utilisée. Discuter de leurs avantages et inconvénients par rapport aux méthodes traditionnelles basées sur l’énergie nous a conduits à vouloir essayer de prendre le meilleur des deux mondes en apprenant une nouvelle fonction de score optimisée pour la conception de protéines. Cette fonction de score est un modèle graphique, un composé de raisonnement déjà utilisé avec succès pour optimiser des protéines. Notre objectif nécessite une pipeline hybride combinant Deep Learning et optimisation discrète. Une telle hybridation étant un défi ouvert en Intelligence Artificielle, nous avons d’abord développé une méthode pour apprendre un Modèle Graphique à partir de données et qui permet une inférence exacte tout en passant à l’échelle sur de grandes instances. Cette méthode a été développée sur le benchmark standard de l’apprentissage des règles du Sudoku, sur lequel elle dépasse l’état de l’art.Nous avons ensuite appliqué cette architecture hybride à la conception de protéines. La structure d’une protéine étant une donnée non euclidienne, elle nécessite une représentation adaptée et une architecture neuronale adéquate pour être traitée. Nous avons appris une nouvelle fonction de score pour la conception que nous avons appelée Effie. Nous l’avons d’abord validée in silico. Pour les tâches de design, elle surpasse les méthodes traditionnelles basées sur l’énergie tout en étant compétitive par rapport aux approches basées DL. De plus, elle peut s’attaquer à des tâches pour lesquelles elle n’a pas été explicitement entraı̂née, ce qui suggère qu’elle a appris certains concepts physico-chimiques. Enfin, nous l’avons appliquée sur 3 projets concrets dont les objectifs de design nécessitaient de biaiser ou de conditionner Effie a posteriori via l’ajout de connaissances ou de contraintes. Dans ce contexte, nous avons montré l’intérêt de notre approche hybride puisque Effie + optimisation discrète a surpassé les méthodes de Deep Learning pures.