Simulations de nano-séquenceurs de protéines assistés par intelligence artificielle
Auteur / Autrice : | Andreina Urquiola hernandez |
Direction : | Patrick Senet, Adrien Nicolaï, Christophe Guyeux |
Type : | Projet de thèse |
Discipline(s) : | Physique |
Date : | Inscription en doctorat le 01/10/2021 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Carnot-Pasteur |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Interdisciplinaire Carnot de Bourgogne |
établissement de préparation : Université de Bourgogne (1970-....) |
Mots clés
Mots clés libres
Résumé
L'objet de la thèse est l'étude par simulations numériques (dynamique moléculaire tous atomes) d'un nano-séquenceur universel, basé sur un principe physique, pour la détection de n'importe quelle protéine en solution, jusqu'à la molécule unique, pour un diagnostic précoce de maladies. Le principe du nano-séquenceur expérimental qui sera simulé numériquement dans cette thèse est le suivant. Le dispositif est constitué d'un nanopore percé dans une membrane de MoS2 plongée dans une solution ionique (KCl). La membrane est soumise à une différence de potentiel électrique, engendrant un courant ionique dit « pore ouvert ». Le principe général est que ce courant ionique est bloqué/modifié lors du passage d'un biopolymère au travers du nanopore. La mesure ultra-rapide des fluctuations de courant par rapport au courant « pore ouvert » fournit des informations structurales sur le passage des différents monomères de la biomolécule à analyser. L'étude des chutes de courant et de leurs durées, interprétées comme des événements de traversée du pore (nommés translocations), permet en théorie d'identifier le passage et la nature de chaque monomère (nucléotide pour l'ADN et acide aminé pour une protéine) et ainsi d'en déduire leur enchaînement, soit la séquence de la biomolécule (ADN ou protéine). Ce dispositif est appliqué au séquençage de l'ADN (1) mais son application aux protéines est à son balbutiement. Du point de vue expérimental, la détection d'un homopolymère (poly-lysines) par une membrane de MoS2 a été publiée en 2019 en s'inspirant de nos travaux théoriques (2). Le défi reste donc entier de pouvoir extraire du courant ionique la séquence des acides aminés d'une protéine traversant un nanopore et ainsi d'identifier la macromolécule. Réussir ce défi aurait un impact important pour le diagnostic précoce de maladies, vu la sensibilité, l'universalité et la portabilité du dispositif. Les signaux de courant mesurés expérimentalement et nos simulations numériques antérieures du dispositif (2) montrent que la complexité du signal de courant ne permet pas d'identifier chaque acide aminé. L'hypothèse à valider dans cette thèse de doctorat est que cela n'est pas nécessaire et qu'une analyse plus fine du signal peut permettre d'identifier la protéine. La solution proposée ici est d'identifier la seule signature des acides aminés chargés. Dans cette thèse, nous voulons démontrer théoriquement par dynamique moléculaire et en utilisant les techniques de l'intelligence artificielle appliquées au courant simulé, que la détection des monomères chargés positivement et négativement est possible et que la position de ces acides aminés chargés dans une séquence suffit pour identifier la protéine. La preuve de ce concept sortirait de l'impasse les recherches actuelles sur le séquençage par nanopore des protéines. L'avantage de l'approche numérique proposée dans la thèse par rapport à l'expérience est que nous pourrons établir le lien entre la position des acides aminés (connue par dynamique moléculaire) et le signal de courant ionique (équivalent à l'expérience). Ceci nous permettra d'éliminer les faux positifs, apparaissant comme des modifications du courant sans passage vrai de la protéine, en entrainant les méthodes d'apprentissage de l'intelligence artificielle (IA) (machine learning et deep learning) sur les traces de courant simulées en utilisant des Séquences SImplifiées des protéines (SSI), où les acides aminés seront partagés en seulement 3 classes (X=positif, Y =négatif, Z=neutre). Le concept des SSI réduira considérablement l'espace des séquences des protéines et permettra l'application des techniques de l'IA. Par exemple, pour une protéine de 6 acides aminés, l'espace des séquences passe de 86 millions à 729 séquences en utilisant le concept des SSI. Des peptides extraits de protéines impliquées dans la maladie de Parkinson seront utilisés comme modèles pour la preuve de concept. Les calculs seront menés en parallèle avec des tests expérimentaux par notre partenaire à l'EPFL à Lausanne en Suisse (groupe du Prof. Radenovic). References: (1) Graf M., Lither M., Altus D., Marion S. & Radenovic A. Transverse Detection of DNA Using a MoS2 Nanopore. Nano Lett. 2019, 19, 12, 90759083. (2) Nicolaï A., Barrios Pérez M. D., Delarue P., Meunier V., Drndic M. & Senet P. Molecular Dynamics Investigation of Polylysine Peptide Translocation through MoS2 Nanopores. J. Phys. Chem. B 2019, 123, 10, 23422353