Méthodes d'apprentissage profond pour prédire la réponse au traitement et la survie à partir d'ADN tumoral circulant
Auteur / Autrice : | Aaron Mamann toledano |
Direction : | Paul-Henry Cournède, Stefan Michiels |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques appliquées |
Date : | Inscription en doctorat le 01/10/2022 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale INTERFACES : approches interdisciplinaires, fondements, applications et innovation |
Partenaire(s) de recherche : | Laboratoire : Mathématiques et Informatique pour la Complexité et les Systèmes - EA 4037 |
Référent : CentraleSupélec |
Mots clés
Résumé
L'ADN tumoral circulant (ctDNA) s'est révélé pertinent dans le prognostic de nombreux cancers, et est obtenu par une simple prise de sang (biopsie liquide) permettant d'éviter des interventions invasives comme les biopsies classiques. Ce doctorat comprend deux types de projets de recherche avec des objectifs différents. Premièrement, il y a eu un projet de recherche appliquée, qui visait à mettre en place des méthodes d'apprentissage existantes à des données d'un essai clinique pour obtenir des découvertes médicales. D'un autre côté, il y a eu un projet de recherche méthodologique, dont le but a été de créer des méthodes d'apprentissage profond spécifiquement conçues pour des données longitudinales de haute dimension de ctDNA dans le but de prédire la survie (OS/PFS) dès les premiers cycles de traitement. Tout d'abord, le projet de recherche appliquée consistait à étudier le caractère pronostique de l'ADN tumoral circulant pour l'OS/PFS dans un cancer du sein avancé ER+/HER2- dans le cadre de l'étude ancillaire de l'essai clinique PADA-1. Dans cet essai clinique, deux échantillons de ctDNA par patient (par biopsies liquides) ont été recueillis à différents stades (avant traitement, et au cycle 2 jour 1). Dans cette étude, nous avons montré que l'ADN tumoral circulant (ctDNA) avant traitement ainsi que ses dynamiques (entre baseline et le jour 1 du cycle 2) sont pronostiques en termes de survie (OS/PFS) dans le cancer du sein ER+/HER2-. Nous avons montré que le ctDNA fournit des informations pronostiques non capturées par l'évaluation scanner RECIST, et avons identifié des groupes de survie distincts (patients à haut/bas risque selon le modèle ctDNA) parmi les patients uniformément classés « Stable Disease (SD) » par leur examen scanner RECIST. Nous avons implémenté un modèle de Cox avec pénalisation lasso adaptatif, montrant que les données de ctDNA améliorent les performances du modèle lorsqu'elles sont intégrées dans un modèle initialement avec des données cliniques. Nous avons également implémenté un réseau de neurones avec une architecture spécifique (qui prend en entrée les données de ctDNA avant traitement et au jour 1 du cycle 2), dont la sortie estime la fonction de log-risque dans le modèle à risques proportionnels de Cox (DeepSurv, Katzman et al., 2018). Ce modèle de réseau de neurones de Cox a obtenu de meilleures performances (en termes de prédiction de la survie) que le modèle de Cox linéaire classique. En ce qui concerne le projet de recherche méthodologique, l'objectif était de développer des architectures de réseaux de neurones (notamment des Transformers) capables de gérer des données de survie censurées à droite (OS/PFS). Ces réseaux de neurones ont été conçus pour capturer des motifs complexes et des interactions entre les ctDNA VAFs (fréquences alléliques des variants) et leurs effets non linéaires sur la survie. Pour ce projet de recherche méthodologique, nous avons travaillé sur le cancer du poumon non à petites cellules (NSCLC) en utilisant l'étude randomisée de phase 3 IMpower150 avec des données longitudinales de ctDNA recueillies à 4 étapes par patient pour 466 patients atteints de NSCLC. Plus précisément, les données consistent en l'évolution des fréquences alléliques des variants (VAF) dans 311 gènes dans le ctDNA lors des quatre premiers cycles de traitement (baseline, cycle 2 jour 1, cycle 3 jour 1, cycle 4 jour 1). Ces données longitudinales sont particulièrement difficiles à traiter pour au moins deux raisons. La première est le faible nombre d'observations dans le temps. La plupart des modèles de séries temporelles ne peuvent pas être fittés à partir de 4 points temporels. La deuxième est la haute dimensionnalité des séries temporelles (en raison du nombre élevé de gènes). Nous avons développé des Transformers capables de capturer des interactions complexes dans ces données longitudinales à haute dimension pour prédire la survie (OS/PFS).