Thèse en cours

Apprentissage profond pour la prédiction des effets des mutations dans les protéines et les interactions protéine-protéine

FR  |  
EN
Auteur / Autrice : Gianluca Lombardi
Direction : Alessandra Carbone
Type : Projet de thèse
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Inscription en doctorat le 03/10/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....)

Résumé

FR  |  
EN

Dans cette thèse, nous souhaitons adresser deux problèmes connexes concernant l'effet des mutations de protéines. Premièrement, nous souhaitons développer un cadre d'apprentissage profond de bout en bout pour estimer les effets des mutations sur les interactions protéine-protéine (PPIs) à partir de séquences uniquement. Plus précisément, nous voulons estimer les changements d'affinité de liaison des protéines (BA) et de surface enfouie des protéines (BSA) lors d'une mutation pour des paires de séquences de protéines connues pour interagir. Deuxièmement, nous souhaitons construire un deuxième cadre d'apprentissage profond pour estimer les effets fonctionnels et structurels des mutations dans une séquence de protéine, prise seule, sans connaître son partenaire. Ce problème est indépendant et sa solution bénéficiera probablement de ce qui a été appris dans le premier problème, à savoir la prise en compte explicite des contacts physiques des paires de protéines. Nos deux questions sont énoncées pour les séquences de protéines. En effet, la séquence primaire est l'information fondamentale pour décrire une protéine. Récemment, AlphaFold2 a clairement montré que les séquences protéiques contiennent suffisamment d'informations pour reconstruire avec succès la structure tridimensionnelle d'une protéine à une résolution de quelques angströms et, éventuellement, de complexes composés de plusieurs protéines. Depuis plus de 20 ans, de nombreuses études ont mis en évidence l'importance de considérer les signaux évolutifs pour extraire des séquences des informations biologiques concernant également la fonction d'une protéine, et pas seulement sa structure. Ici, nous allons plus loin dans l'étude des protéines en explorant de nouveaux motifs dans les séquences conduisant à estimer les effets fonctionnels, et pas seulement structurels, causés par les mutations des protéines. Pour mieux caractériser l'information de la séquence et la mutation, pour les deux problèmes, nous adopterons plusieurs niveaux de processus de codage respectivement sur les acides aminés individuels et sur la séquence.