Méthodes d'apprentissage en simulation moléculaire
Auteur / Autrice : | Zineb Belkacemi |
Direction : | Tony Lelièvre, Gabriel Stoltz |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 06/07/2022 |
Etablissement(s) : | Marne-la-vallée, ENPC |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-....) |
Partenaire(s) de recherche : | Laboratoire : Centre d'enseignement et de recherche en mathématiques et calcul scientifique (Champs-sur-Marne, Seine-et-Marne) |
Jury : | Président / Présidente : Chris Chipot |
Examinateurs / Examinatrices : Gabriel Stoltz, Stefan Klus, Peter G. Bolhuis, Tony Lelièvre, Wei Zhang, Élodie Laine, Paraskevi Gkeka | |
Rapporteur / Rapporteuse : Stefan Klus, Peter G. Bolhuis |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Avec l’amélioration continue de la capacité de calcul des ordinateurs, les méthodes d’apprentissage automatique ont permis le développement de nouvelles solutions aux problèmes dans divers domaines. En particulier, l’apprentissage automatique a été largement utilisé au cours de la dernière décennie dans le domaine de la biochimie computationnelle et de la découverte et développement de nouveaux médicaments. Cela inclut l’application de méthodes d’apprentissage automatique pour la définition de nouvelles molécules, la détermination de sites importants dans les protéines ciblées, la conception de champs de force adéquats fondés sur des résultats expérimentaux ou encore l’amélioration de l’efficacité de l’échantillonnage des conformations moléculaires d’un système donné. Cette thèse de doctorat se concentre sur la dernière tâche consistant à utiliser des méthodes d’apprentissage automatique pour améliorer l’échantillonnage en dynamique moléculaire. En effet, les simulations de dynamique moléculaire se sont avérées être un outil très utile en complément des expériences en laboratoire. Malgré leur large utilisation pour capturer les phénomènes rapides, il existe encore de nombreux cas où les échelles de temps accessibles aux simulations de dynamique moléculaire sont bien plus petites que les échelles de temps nécessaires pour l’observation des changements conformationnels importants du système, en raison de la présence de barrières hautes dans le profil énergétique. Les méthodes de biaisage par l’énergie libre se sont avérées être des outils puissants pour accélérer l’observation de tels changements en modifiant la mesure d’échantillonnage. Cependant, la plupart de ces méthodes s’appuient sur la connaissance préalable de variable collective du système, c’est-à-dire des degrés de liberté de faible dimension représentant les directions lentes du système moléculaire. Ces variables collectives peuvent être identifiées à l’aide d’algorithmes d’apprentissage automatique et de réduction de dimensionalité. En plus d’être utilisées pour accélérer l’échantillonnage, les variables collectives construites par apprentissage automatique aident également à acquérir une connaissance précieuse du système étudié, à savoir en facilitant la visualisation de ses différents états, ainsi que de son profil d’énergie libre. Dans ce travail, d’importantes notions et définitions de la dynamique moléculaire sont d’abord présentées avant de passer en revue les algorithmes d’apprentissage automatique de pointe qui ont été conçus ou appliqués ces dernières années pour la construction automatique de variables collectives. Ensuite, la méthode développée au cours de cette thèse, baptisée ''Free energy biasing and machine learning with autoencoders'' (FEBILAE), est introduite. Cette méthode utilise un schéma itératif pour générer alternativement de nouvelles simulations et apprendre les variables collectives à partir de ces simulations en utilisant des autoencodeurs. Enfin, nous présentons l’application de méthodes d’apprentissage automatique à un véritable système d’intérêt. Ici, des autoencodeurs sont utilisés pour apprendre les variables collectives de la protéine chaperone HSP90, dans le but d’effectuer des simulations biaisées de ce système.