Thèse soutenue

Machine learning pour comprendre et concevoir le kinome structurel

FR  |  
EN
Auteur / Autrice : Ivan Reveguk
Direction : Thomas Simonson
Type : Thèse de doctorat
Discipline(s) : Biologie
Date : Soutenance le 08/11/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire de Biologie Structurale de la Cellule (Palaiseau ; 1975-....) - Laboratoire de Biologie Structurale de la Cellule / BIOC
Jury : Président / Présidente : Florence D'Alché-Buc
Examinateurs / Examinatrices : Thomas Simonson, Roland Dunbrack, Vincent Zoete, Sergei Grudinin
Rapporteurs / Rapporteuses : Roland Dunbrack, Vincent Zoete

Résumé

FR  |  
EN

Les protéines kinases (PK) constituent l'un des groupes d'enzymes les plus anciens et ubiquitaires, profondément intégrés dans la machinerie moléculaire d'une cellule. En modifiant la conformation de leurs cibles par le transfert de groupes phosphates, les PK passent elles-mêmes entre des états actifs et inactifs. Tout déséquilibre entre eux peut conduire à des maladies nuisibles, y compris les cancers. Le motif DFG, situé dans la boucle d'activation (AL), présente une variabilité conformationnelle dans l'état inactif moins contraint : une propriété que les inhibiteurs à petites molécules exploitent souvent. Plus précisément, il existe deux principales orientations du motif DFG, connues sous le nom de DFG "in" et DFG "out". Cette dernière empêche la liaison du substrat et est généralement associée à une plus grande sélectivité des inhibiteurs. Bien que crucial pour les efforts de conception de médicaments, on en sait peu sur les caractéristiques qui façonnent le paysage conformationnel de AL. Ce travail constitue une tentative systématique de les découvrir grâce à une curatelle minutieuse des données et à l'exploitation des données. Au cours de ce travail, nous avons créé le plus grand ensemble structural de kinomes à ce jour, comprenant près de dix mille domaines de PK annotés. Le regroupement de ces domaines a permis l'étiquetage semi-supervisé des conformations du motif DFG. Ces étiquettes ont servi d'entrée à notre pipeline interprétable d'apprentissage automatique (ML), comprenant des ensembles basés sur des arbres de décision et un algorithme de sélection de caractéristiques indépendant du modèle. Les classificateurs obtenus ont prédit avec précision les conformations DFG et les états actifs/inactifs, en s'appuyant sur des caractéristiques structurales facilement interprétables. Nous avons utilisé les annotations obtenues et les prédictions des modèles ML pour caractériser les éléments de séquence susceptibles de contribuer à l'équilibre conformationnel de l'état inactif de AL, ou "positions discriminantes". Pour les découvrir, nous avons créé plusieurs ensembles de données basés sur la séquence, chacun ayant un niveau différent de propension conformationnelle attribuée à une séquence. Nous avons utilisé le même pipeline ML et une analyse phylogénétique pour montrer qu'une propension conformationnelle claire du DFG est probablement privilégiée chez un groupe de protéines kinases de récepteurs de tyrosine étroitement liés. Les positions discriminantes découvertes coïncidaient avec la littérature existante et les études de mutagenèse, et pourraient servir de base à de futurs efforts expérimentaux, y compris des applications de conception de protéines computationnelles. Enfin, la méthodologie développée permet d'automatiser l'annotation du kinome structural. Généralisable à des problèmes de nature similaire, elle pourrait accroître l'efficacité et la transparence de l'exploitation des données en biologie structurale.