Thèse soutenue

Méthodes et systèmes d'optimisation de la charge d'annotation en imagerie médicale pour les algorithmes d'apprentissage
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Camille Ruppli
Direction : Isabelle BlochRoberto Ardon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
Jury : Président / Présidente : Diana Mateus
Examinateurs / Examinatrices : Diana Mateus, Ender Konukoğlu, Jean-Philippe Thiran, Ninon Burgos
Rapporteurs / Rapporteuses : Ender Konukoğlu, Jean-Philippe Thiran

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Ces dernières années, la quantité de données d'imagerie médicale n'a cessé de croître. En 1980, 30 minutes d'acquisition étaient nécessaires pour obtenir 40 images médicales.Aujourd'hui, 1000 images peuvent être acquises en 4 secondes. Cette croissance de la quantité de données est allée de pair avec le développement de techniques d'apprentissage profond qui ont besoin d'annotations de qualité pour être entraînées. En imagerie médicale, les annotations sont beaucoup plus coûteuses à obtenir car elles nécessitent l'expertise d'un radiologue dont le temps est limité.L'objectif de cette thèse est de proposer et de développer des méthodes permettant de limiter la charge d'annotation en imagerie médicale tout en maintenant une performance élevée des algorithmes d'apprentissage profond.Dans la première partie de cette thèse, nous étudions les méthodes d'apprentissage auto-supervisé. Ces méthodes introduisent des sous-tâches de différents types : approches génératives, contextuelle et basée sur l'auto-distillation. Ces tâches sont utilisées pour pré-entraîner un réseau de neurones sans annotations supplémentaires afin de tirer profit des données non annotées disponibles.La plupart de ces tâches utilisent des perturbations assez génériques, sans rapport avec la tâche supervisée sous-jacente et échantillonnées au hasard dans une liste avec des paramètres fixés. La meilleure façon de combiner et de choisir ces perturbations et leurs paramètres n'est pas encore claire. En outre, certaines perturbations peuvent être préjudiciables à la tâche supervisée objectif. Certains travaux atténuent ce problème en concevant des sous-tâches pour une tâche supervisée spécifique, en particulier dans le domaine de l'imagerie médicale. Mais ces tâches ne se généralisent pas bien à d'autres problèmes.Un équilibre doit donc être trouvé entre l'optimisation de la perturbation ou de la sous-tâche pour un problème supervisé donné et la capacité de généralisation de la méthode.Parmi les méthodes basées sur le contexte, les approches d'apprentissage contrastif proposent une tâche de discrimination par instance : l'espace latent est structuré suivant la similarité entre différentes instances. La définition de la similarité des instances est le principal défi de ces approches et a été largement explorée.Lorsque des perturbations sont utilisées pour définir la similarité entre les images, les mêmes questions d'optimisation des perturbations se posent.Nous introduisons un générateur de perturbations optimisé pour le pré-entraînement contrastif guidé par une petite quantité de supervision.Les annotations de classes et certaines métadonnées ont été utilisées pour conditionner la similarité des instances, mais ces données peuvent être sujettes à la variabilité des annotateurs, en particulier dans le domaine médical. Certaines méthodes ont été proposées pour utiliser la confiance dans l'apprentissage supervisé et auto-supervisé, mais elles sont principalement basées sur les valeurs de la fonction de perte. Cependant, la confiance dans les annotations et les métadonnées est souvent liée à des connaissances a priori du domaine, telles que l'acquisition des données, l'expérience et l'accord entre les annotateurs. Ceci est encore plus pertinent pour les données médicales.Dans la deuxième partie de cette thèse, nous proposons une fonction de perte contrastive prenant en compte la confiance des annotations pour le problème spécifique de la détection des lésions du cancer de la prostate.Enfin, nous explorons quelques approches pour appliquer l'apprentissage auto-supervisé et contrastif à la segmentation des lésions du cancer de la prostate.