Prédiction de mutations impliquées dans le développement des cancers via des approches deep learning
Auteur / Autrice : | Raphaël Teboul |
Direction : | Eric Letouzé |
Type : | Thèse de doctorat |
Discipline(s) : | Oncogenèse |
Date : | Soutenance le 17/10/2022 |
Etablissement(s) : | Université Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Hématologie, oncogenèse et biothérapies (Paris ; 2014-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de recherche des Cordeliers (Paris ; 2007-....) |
Jury : | Président / Présidente : Judith Favier |
Examinateurs / Examinatrices : Josh Waterfall | |
Rapporteur / Rapporteuse : Marie de Tayrac, Andrei Zinovyev |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Seulement 50 megabases parmi les 3 gigabases du génome humain(moins de 2%) correspondent à des séquences codant des protéines. Les mutations somatiques dans ces régions codantes ont été étudiées de manière exhaustive puisqu'on peut prédire de manière relativement simple leur impact sur la structure des protéines. L'analyse des mutations 'drivers', c'est-à-dire jouant un rôle moteur dans l'oncogenèse, a permis de définir 723 gènes impliqués dans l'apparition des cancers (cancer gene census, COSMIC database, Septembre 2019). Au contraire, hormis l'exemple notable des mutations du promoteur de TERT - le gène responsable de l'expression de la télomérase, enzyme clé nécessaire à la prolifération illimitée des cellules - très peu de mutations drivers ont été identifiées dans la partie non-codante du génome, en raison de la difficulté à prédire l'impact fonctionnel de ces mutations. Bien que les mutations non-codantes puissent altérer la régulation transcriptionnelle ou post-transcriptionnelle d'oncogènes ou de gènes suppresseurs de tumeur, il n'y a pas de méthode communément établie pour prédire ces effets. Notre hypothèse de travail est que l'utilisation de réseaux de neurones profonds pour prédire l'impact fonctionnel des millions de mutations somatiques identifiées dans les grands programmes de séquençage de tumeurs est une approche prometteuse pour découvrir des mutations drivers non-codantes aujourd'hui inconnues. Des études pionnières ont démontré la capacité des réseaux de neurones profonds de reconnaître différents motifs régulateurs dans des séquences d'ADN, comme des sites d'épissage, les séquences régulant l'accessibilité de la chromatine, la fixation des facteurs de transcription ou la conformation 3D. Certaines de ces architectures ont produits des résultats majeurs sur l'identification de variants causaux pour différentes maladies constitutionnelles. Au cours de ma thèse, j'ai utilisé plusieurs de ces architectures pour prédire l'impact fonctionnel de quelques 279 200 766 mutations somatiques identifiées dans 18 247 tumeurs. Ces résultats m'ont notamment permis d'identifier un grand nombre de mutations d'epissage cryptiques dans les cancers, et de montrer la puissance des approches deep learning pour l'annotation des mutations à la fois en recherche et pour la clinique. Enfin, les approches single-cell se développent rapidement et permettent une description fine des mécanismes biologiques à l'échelle de la cellule. Cependant, ces données posent des problèmes liés au nombre limité de cellules analysées, et à la faible quantité de données par cellule. Pour permettre une exploitation optimale des données single-cell générées au laboratoire, j'ai commencé à développer une architecture pour l'intégration et d'augmentation de données single-cell appariées RNA-seq et ATAC-seq. Cette architecture permettra d'augmenter les populations cellulaires pour une meilleure caractérisation des populations rares, et d'optimiser la caractérisation transcriptionnelle et multi-omiques de chaque population.