Réseaux neuronaux à base de graphes pour la génération de structures moléculaires synthétiquement accessibles

par Tagir Akhmetshin

Thèse de doctorat en Chimie informatique et théorique

Sous la direction de Alexandre Varnek et de Timur Madzhidov.

Le président du jury était Esther Kellenberger.

Les rapporteurs étaient Véronique Stoven, Alban Lepailleur.


  • Résumé

    Cette thèse est dédiée au développement de génératifs par réseaux de neurones artificiels de graphes et d'un outil de planification rétrosynthétique amélioré par des méthodes d’apprentissage automatique profond. Les modèles génératifs s'appuient sur le concept d'autoencodeur, très populaire dans les tâches de conception moléculaire de novo et d'analyse QSAR inverse. L'architecture proposée, HyFactor, basée sur le graphe étiqueté par le nombre d'hydrogènes par atome, se révèle performante et utile pour générer des analogues moléculaires. La seconde architecture proposée, VQGAE, donne des résultats comparables à ceux d'HyFactor dans la tâche de reconstruction, mais la représentation latente se montre plus performante pour la recherche par similarité et pour le QSAR. Ces performances sont illustrées par la génération de ligands très actifs pour les récepteurs A2A. La faisabilité synthétique des structures générées a été vérifiée à l'aide d'un nouvel outil de rétrosynthèse, GSLRetro. Cet outil est conçu sur le concept d'auto-apprentissage qui améliore la stabilité des solutions grâce aux précédentes solutions proposées. Le protocole de curation des données de réaction ainsi que de nouvelles techniques de validation croisée pour les modèles QSPR basés sur les réactions sont également présentés. En somme, la combinaison de ces outils constitue une étape importante vers la conception automatisée de molécules.

  • Titre traduit

    Graph-based neural networks for generation of synthetically accessible molecular structures


  • Résumé

    This thesis is dedicated to the development of graph-based generative neural networks and a retrosynthetic planning tool enhanced by deep learning architectures. The generative networks are based on the autoencoder concept, which has gained popularity in de novo molecular design and inverse QSAR tasks. The proposed architecture, HyFactor, based on the hydrogen number labelled graph, was computationally efficient and helpful in generating molecular analogues. The following architecture, VQGAE, performed as well as HyFactor in the reconstruction task, while its latent vectors showed the best performance in the similarity search and QSAR tasks. As a proof of concept, VQGAE was used to generate highly potent ligands of A2A receptors. The synthetic feasibility of the generated structures was verified using a new retrosynthesis tool, GSLRetro. This tool is based on a self-learning concept by which it can improve the search quality by training on previous searches' results. In addition to the retrosynthetic planning tool, the protocol of reaction data curation and new cross-validation techniques for reaction-based QSPR models were proposed. Finally, the combination of these tools represents a significant step towards automated molecular design.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Strasbourg. Bibliothèque électronique du Services des bibliothèques 063.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.