Thèse soutenue

Prédiction de l'affinité de liaison des complexes protéine-ligand en combinant des simulations de dynamique moléculaire avec des algorithmes d'apprentissage profond

FR  |  
EN
Auteur / Autrice : Pierre-Yves Libouban
Direction : Pascal Bonnet
Type : Thèse de doctorat
Discipline(s) : Chimie. Chémoinformatique
Date : Soutenance le 11/12/2023
Etablissement(s) : Orléans
Ecole(s) doctorale(s) : École doctorale Santé, Sciences Biologiques et Chimie du Vivant (Centre-Val de Loire ; 2012-....)
Partenaire(s) de recherche : Laboratoire : Institut de chimie organique et analytique (Orléans ; 2012-....)
Jury : Président / Présidente : Jana de Oliveira Santos
Examinateurs / Examinatrices : Xavier Barril, Gary Tresadern, Samia Aci-Sèche
Rapporteurs / Rapporteuses : Olivier Sperandio, Matthieu Montes

Résumé

FR  |  
EN

Les interactions des petites molécules avec leurs protéines cibles sont essentielles à la recherche pharmaceutique. L'affinité de liaison des complexes protéine-ligand peut être mesurée par des expériences in-vitro, mais ces tests sont couteux en argent et en temps. Aujourd'hui, les réseaux de neurones profonds utilisant les structures en trois dimensions des complexes sont capables de prédire cette affinité de liaison. Cependant, des limitations persistent malgré l'implémentation de nouveaux réseaux de neurones. Ceci est principalement dû au manque de données structurales, qui nécessitent un travail expérimental conséquent pour être déterminées. Ce projet vise à améliorer notre capacité à prédire l'affinité des complexes protéine-ligand en combinant des approches d'apprentissage profond avec des simulations de dynamique moléculaire. Ainsi, il est possible d'augmenter la quantité de données utilisées lors de l'apprentissage des modèles statistiques, en extrayant des structures supplémentaires des simulations de dynamique moléculaire. En outre, celles-ci fournissent des informations temporelles sur les interactions protéine-ligand qui peuvent être utilisées pour améliorer les modèles. Nous avons créé un ensemble de données de 63 000 simulations, obtenues à partir de 6 300 complexes. Puis nous avons développé des réseaux de neurones, tel que le LSTM à convolutions, capables d'analyser à la fois les informations spatiales et temporelles issues des simulations. Ces réseaux combinent un réseau de neurones à convolutions capable d'extraire l'information spatiale des structures en trois dimensions à chaque pas de temps, tandis que le LSTM suit l'évolution de cette information sur l'ensemble de la simulation. En utilisant les simulations de dynamique moléculaire en tant qu'augmentation de données, nos modèles obtiennent des résultats prometteurs.