Thèse soutenue

Apprentissage semi-supervisé, segmentation d'images TEP/TDM et prédiction de la réponse tumorale à l'immunothérapie

FR  |  
EN
Auteur / Autrice : Hugo Schmutz
Direction : Olivier Humbert
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 19/12/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences fondamentales et appliquées
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Frédéric Precioso
Examinateurs / Examinatrices : Olivier Humbert, Frédéric Precioso, Ninon Burgos, Irène Buvat, Paul Jäger, Laure Fournier, Marco Lorenzi, Florence Forbes
Rapporteurs / Rapporteuses : Ninon Burgos, Irène Buvat

Résumé

FR  |  
EN

L'objectif de cette thèse est de prédire la réponse à l'immunothérapie de patients atteints du cancer du poumon non à petites cellules (CPNPC). Pour ce faire, nous proposons une méthode basée sur l'apprentissage profond, qui accélère la collecte et la standardisation de biomarqueurs d'imagerie 18F-FDG PET/CT. Cette méthode segmente directement les tumeurs sur les images et permet d'en extraire les biomarqueurs. En outre, il est très fastidieux d'obtenir de large jeux de données annotées dans le cadre de la segmentation d'image médicale. Cependant, les données non annotées s'obtiennent à moindre coup. Cette remarque nous a fait nous tourner vers les méthodes d'apprentissage semi-supervisées et plus particulièrement, vers les méthodes d'apprentissage semi supervisées dites emph{sans danger} pour atténuer le risque de possible de dégradation des performances causé par l'introduction de données non étiquetées. Ensuite, les biomarqueurs extraits des images 18F-FDG PET/CT sont combinés avec des biomarqueurs cliniques et biologiques hétérogènes acquis dans la pratique courante des soins pour prédire les résultats des patients atteints de CPNPC.Pour ce faire, nous proposons une modification simple du cadre d'apprentissage semi-supervisé, appelé DeSSL, et fournissons des garanties théoriques à la plupart des méthodes SSL d'apprentissage profond. En effet, la plupart des méthodes d'apprentissage profond SSL minimisent une estimation biaisée du risque due à l'inclusion de données non étiquetées, même de manière asymptotique. Nous proposons de débiaiser simplement l'estimation du risque en utilisant des données étiquetées. Notre modification est simple à mettre en œuvre et applicable à la plupart des méthodes SSL profondes. Nous comparons plusieurs méthodes SSL avec leurs équivalents après application de la méthode et prouvons que le débiaisage peut rivaliser avec les techniques SSL profondes classiques dans divers contextes et même donner de bons résultats lorsque la méthode SSL traditionnelle échoue, en particulier sur différents ensembles de données médicales. Nous étendons en outre l'estimateur débiaisé à un scenario ou l'absence des annotations est due à leur propre valeur. Nous proposons une nouvelle approche pour résoudre le problème de l'estimation du mécanisme des données manquantes et une nouvelle méthode de débiaisage applicable à n'importe quelle méthode discriminative. La performance de cette méthode est démontrée dans différentes situations, y compris sur deux jeux de données médicaux pour lesquels nous concevons des situations de données manquantes pseudo-réalistes. Nous proposons ensuite une adaptation de DeSSL pour la segmentation des images médicales. Comme DeSSL, la méthode, DeSegSSL, peut être appliquée à la plupart des méthodes discriminatives profondes pour la segmentation semi-supervisées. De plus, DeSegSSL bénéficie de garanties théoriques. Nous avons prouvé que DeSegSSL est un estimateur plus précis du risque que le cas complet et qu'il bénéficie de bornes d'erreur de généralisation dérivées de la complexité de Rademacher.Finalement, nous développons des modèles simples et interprétables pour prédire les réponses à l'immunothérapie des patients atteints de CPNC par une sélection de variables rigoureuse et des modèles simples tels que la régression logistique. Nous prouvons que la combinaison de biomarqueurs hétérogènes trouvés donne une base puissante pour prédire la réponse à l'immunothérapie.