Machine learning pour la dynamique moléculaire de nouvelle génération
Auteur / Autrice : | Théo Jaffrelot Inizan |
Direction : | Jean-Philip Piquemal |
Type : | Thèse de doctorat |
Discipline(s) : | Chimie Physique |
Date : | Soutenance le 03/10/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Chimie physique et chimie analytique de Paris Centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de chimie théorique (Paris ; 1997-....) |
Jury : | Président / Présidente : Alessandra Carbone |
Examinateurs / Examinatrices : Gabriel Stoltz, Louis Lagardère, Nathalie Lagarde, Jérôme Hénin | |
Rapporteurs / Rapporteuses : Markus Meuwly, Carine Clavaguéra |
Résumé
Tout au long de cette thèse, des modèles d'apprentissage profond ont été utilisés à différents niveaux afin de tenter de résoudre certaines limitations de la dynamique moléculaire. Alors que les champs de forces offrent un faible coût de calcul, ils ne peuvent, néanmoins, capturer un certain nombre d'effets quantiques. De surcroît, l'accélération d'échantillonnage reste un défi en-soi et encore plus particulièrement pour les systèmes biochimiques. Cette difficulté est intrinsèquement liée aux échelles de temps caractéristiques des phénomènes présents dans systèmes biochimiques qui dépassent largement l'échelle de temps accessible par dynamique moléculaire. De plus, l'analyse et l'interprétation des simulations, reste une question ouverte. Ces dernières années, d'importants efforts ont été faits pour incorporer l'apprentissage profond dans les champs de forces. L'apprentissage profond offrant la promesse de combiner la précision des méthodes de structure électronique et la vitesse de calcul des champs de forces. Cependant la plupart des potentiels neuronaux ont tendance à négliger une multitudes d'effets physiques. Compte tenu de ces considérations, dans cette thèse, plusieurs modèles basés sur l'apprentissage profond et tenant compte de modèles physiques pré-éxistant ont été introduits. Une grande attention a été consacrée afin de combiner les potentiels par apprentissage profond avec les champs de forces polarisables. Pour cela, il a été nécessaire de développer une plateforme d'apprentissage profond, appelée Deep-HP, hautement parallèle et de l'intégrer dans un logiciel de dynamique moléculaire, Tinker-HP. Cette plateforme permet aux utilisateurs de combiner des modèles d'apprentissage profond avec des champs de forces. Elle permet de faire des simulations à grande échelle avec des potentiels neuronaux, sur plusieurs centaines de GPU. Cette plateforme a également conduit au développement d'un modèle hybride qui combine le potentiel neuronal ANI-2X et le champs de forces AMOEBA. Pour vérifier la précision et la transférabilité du modèle des énergies libres de solvatation de molécules ainsi que des énergies libres de liaison de systèmes hôte-invité des compétitions du SAMPL ont été calculées et comparées aux données expérimentales. La thèse introduit également le modèle Q-AMOEBA-NN. Ce modèle utilise les modèles d'interaction à longue portée du champ de forces AMOEBA et utilise un modèle d'apprentissage profond pour les interactions à courte portée. Le développement du modèle Q-AMOEBA-NN a été rendu possible grâce à la paramétrisation avec AMOEBA d'une vaste base de données contenant des millions de conformations, y compris des dipeptides, des dimères, des molécules d'eau et des ions solvatés. Une partie de cette thèse se concentre justement sur le développement de techniques d'échantillonnage accélérées non-supervisées. L'efficacité du modèle a été testée pour échantillonner l'espace de conformation de la protéine Mpro du SARS-CoV-2. Il a permis de générer plus de 50 micro-secondes de simulations en utilisant le champ de forces polarisable AMOEBA. Pour améliorer davantage l'efficacité de l'échantillonnage, l'algorithme a été combiné avec une nouvelle méthode de dynamique moléculaire accélérée par gaussiennes. La combinaison de ces méthodologies d'échantillonnage permet une réduction significative du temps de calcul requis pour évaluer les profils d'énergie libre. Pour conclure, cette thèse a permis de mettre en lumière plusieurs applications de l'apprentissage profond en dynamique moléculaire. Un travail important a été réalisé afin de combiner l'apprentissage profond avec des modèles physiques. Un des messages de cette thèse est que l'apprentissage profond ne doit pas remplacer totalement les modèles physiques actuels, mais plutôt être intégré de manière réfléchie à ces derniers. Ces travaux de thèse ont permis de mettre en place des modèles robustes désormais utilisables pour l'étude de nombreux systèmes biochimiques.