Thèse soutenue

Développements algorithmiques pour l'analyse et la prédiction de la structure des protéines

FR  |  
EN
Auteur / Autrice : Guillaume Pages
Direction : Valentin GordeliySergei Grudinin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/09/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Equations aux dérivées partielles
Jury : Président / Présidente : Stéphane Redon
Examinateurs / Examinatrices : Pablo Chacón, Ceslovas Venclovas, Élodie Laine, Konrad Hinsen, Arne Elofsson
Rapporteurs / Rapporteuses : Pablo Chacón, Ceslovas Venclovas

Résumé

FR  |  
EN

Les protéines sont omniprésentes dans les processus biologiques. Identifier leurs fonctions aide à comprendre et éventuellement à contrôler ces processus. Cependant, si la détermination de la séquence protéique est désormais une procédure de routine, il est souvent difficile d'utiliser cette information pour extraire des connaissances fonctionnelles pertinentes sur le système étudié. En effet, la fonction d'une protéine repose sur ses propriétés chimiques et mécaniques, lesquelles sont définies par sa structure. Ainsi, la prédiction, la compréhension et l'analyse de la structure des protéines sont parmi les principaux défis de la biologie moléculaire.La prédiction et l'analyse des repliements de protéines est le sujet central de cette thèse. Cependant, de nombreuses protéines sont organisées selon des assemblages qui sont symétriques dans la plupart des cas et certaines protéines contiennent des répétitions internes. La conception d'une structure avec des répétitions ou d'un assemblage protéique symétrique est souvent le moyen le plus simple pour l'évolution d'atteindre une certaine fonction. Ceci qui nous a poussé à développer des méthodes spécialement conçues pour les assemblages protéiques symétriques et les protéines avec répétitions internes. Une autre motivation derrière cette thèse était d'explorer et de faire progresser le domaine émergent de l'apprentissage profond appliqué aux données atomistiques tridimensionnelle (3D).Cette thèse s'articule autour de deux parties. Dans la première partie, nous proposons des algorithmes pour analyser la structures des assemblages symétriques de protéines. Nous commençons par définir une mesure de symétrie basée sur la distance euclidienne 3D et décrivons un algorithme permettant de calculer efficacement cette mesure et de déterminer les axes de symétrie des assemblages protéiques. Cet algorithme est capable de traiter tous les groupes ponctuels de symétrie, à savoir les symétries cycliques, dièdrales, tétraédriques, octaédriques et icosaédriques, grâce à une heuristique robuste qui perçoit la correspondance entre sous-unités asymétriques. Nous étendons ensuite les limites du problème et proposons une méthode applicable à des cartes de densité 3D. Nous abordons ce problème à l'aide d'un réseau neuronal profond (DNN), et nous proposons une méthode qui prédit l'ordre de symétrie l'axe de symétrie 3D.Ensuite, nous proposons une architecture DNN pour évaluer la qualité de modèles 3D de repliements de protéines. Nous avons entrainé le DNN en utilisant en entrée la géométrie locale autour de chaque résidu dans un modèle de protéine représenté par une carte de densité, et avons prédit les CAD-scores de ces résidus. Le DNN a été créé pour être invariant par rapport à l'orientation du modèle d'entrée. Nous avons également conçu certaines parties du DNN pour reconnaître automatiquement les propriétés des atomes et sélectionner des descripteurs pertinents. Enfin, nous analysons les descripteurs appris par le DNN. Nous montrons que notre architecture apprend effectivement des propriétés des atomes, des acides aminés et des structures moléculaires de niveau supérieur. Certaines propriétés sont déjà bien étudiées comme les éléments chimiques, les charges partielles atomiques, les propriétés des acides aminés, la structure secondaire des protéines et l'exposition au solvant. Nous démontrons également que notre réseau apprend de nouvelles caractéristiques structurelles.Cette étude présente de nouveaux outils pour la biologie structurale. Certains sont déjà utilisés dans la communauté, par les évaluateurs de CASP par example. Elle démontre également la puissance de l'apprentissage profond pour la représentation de la structure des protéines et son applicabilité aux problèmes des données 3D.