Machine learning pour l'intégration des données génomiques et d'imagerie appliquée à la neuro-oncologie
Auteur / Autrice : | Hamza Chegraoui |
Direction : | Vincent Frouin, Cathy Philippe |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de l'information et de la communication |
Date : | Soutenance le 23/03/2023 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Electrical, optical, bio : physics and engineering (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Building large instruments for neuroimaging: from population imaging to ultra-high magnetic fields (Gif-sur-Yvette, Essonne ; 2020-....) |
Référent : Faculté des sciences d'Orsay | |
graduate school : Université Paris-Saclay. Graduate School Sciences de l’ingénierie et des systèmes (2020-….) | |
Jury : | Président / Présidente : Arthur Tenenhaus |
Examinateurs / Examinatrices : Céline Lefebvre, Laurent Guyon, Irène Buvat, Anaïs Baudot | |
Rapporteur / Rapporteuse : Céline Lefebvre, Laurent Guyon |
Résumé
Le gliome infiltrant du tronc cérébral (Diffuse Intrinsic Pontine Glioma (DIPG)) est une tumeur cérébrale rare située dans le pons, principalement observé chez les enfants âgés de 5 à 7 ans. Elle est considérée comme l'une des tumeurs pédiatriques les plus agressives, avec un taux de survie inférieur à 10 % au-delà des deux ans après le diagnostic et une médiane de survie globale inférieure à un an. Le DIPG est classé comme un gliome diffus de la ligne médiane (DMG), principalement caractérisé par une mutation K27M des gènes codant pour la protéine histone H3 et/ou une perte de la triméthylation H3K27 par surexpression de la protéine EZHIP. L'emplacement de la tumeur et ses altérations génomiques correspondantes fait du DIPG un type de tumeur complètement différent des autres tumeurs de haut grade. Ce travail propose l'intégration des données d'imagerie avec les données génétiques afin de trouver des biomarqueurs. Dans un premier temps, nous nous intéressons à l'extraction des régions d'intérêt des images nécessaires pour une étude radiomique. Ensuite, nous proposons une procédure d'intégration des données multi-sources, qui prend en compte les graphes complexes d'interaction entre les gènes. Finalement, nous appliquons notre procédure sur les données disponibles afin de comparer ses performances avec d'autres modèles de la littérature et étudier l'apport de l'imagerie et du graphe aux données génétiques. L'analyse radiomique nécessite des régions d'intérêt prédéfinies sur les images disponibles. Pour notre cohorte DIPG, la segmentation manuelle de la tumeur n'était pas disponible car elle ne fait pas partie de la routine clinique. De plus, aucune base de données spécifique n'a été créée pour entraîner des algorithmes d'apprentissage automatique classiques afin de délimiter automatiquement les régions tumorales. Cette étude s'est concentrée sur l'obtention de segmentations binaires pour le DIPG en utilisant uniquement les modalités FLAIR et T2w, à partir de modèles entraînés sur le glioblastome. Nous proposons de combiner différents modèles simples de détection et de segmentation pour obtenir des résultats de segmentation satisfaisants. En parallèle, un modèle d'intégration multi-blocs prenant en compte des graphes complexes connus d'interactions entre les gènes a été développé et l'influence du graphe choisi sur la sélection des variables par le modèle a été étudiée. Nous proposons netSGCCA, un modèle combinant la Sparse Generalized Canonical Correlation Analysis (SGCCA) et la pénalité GraphNet. Nous avons appliqué notre modèle à l'ensemble de données multi-omiques TGCA-LGG (The Cancer Genome Atlas - Low Grade Glioma). Contrairement à Elastic-Net seul, la pénalité GraphNet est capable de sélectionner un ensemble raisonnable de gènes tout en offrant une interprétation biologique au niveau des voies biologiques et donc informative sur de potentielles cibles thérapeutiques. L'exemple sur l'ensemble de données TCGA-LGG montre la stabilité et la fiabilité de netSGCCA pour la sélection des variables d'intérêt.Enfin, nous avons utilisé netSGCCA pour intégrer la radiomique et les données génétiques et l'avons appliqué à la tâche de prédiction de la survie. En raison de l'indisponibilité des données de survie sur notre cohorte DIPG, nous avons utilisé l'ensemble de données TCGA-LGG pour mener l'étude. Nous avons comparé netSGCCA avec d'autres approches de survie multi-blocs et des modèles construits en mono-blocs. La netSGCCA s'est révélée être un modèle robuste capable de sélectionner des gènes connus dans le gliome de bas-grade et d'autres interagissants dans des voies biologiques pertinentes. Le bloc radiomique n'a pas fourni d'information supplémentaire au modèle. Cependant, les caractéristiques radiomiques extraites de la modalité T2, en mono-bloc sont des prédicteurs performants, ce qui représenterait un espoir pour les patients avec DIPG qui n'ont pas de biopsie.