Thèse en cours

Exploiter des méthodes semi-supervisés et d'auto-entraînement pour l'apprentissage fédéré appliqué à la classification et détection de lésions en mammographie

FR  |  
EN
Auteur / Autrice : Gonzalo Quintana
Direction : Mathilde MougeotAgnès Desolneux
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 08/10/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques et de leurs applications (1990-2019 ; Cachan, Val-de-Marne)
Equipe de recherche : Apprentissage statistique et données massives
référent : École normale supérieure Paris-Saclay (Gif-sur-Yvette, Essonne ; 1912-....)

Résumé

FR  |  
EN

Le cancer du sein est l'un des cancers les plus fréquents chez les femmes en Amérique du Nord et en Europe. Par exemple, en France, le cancer du sein était la principale cause de décès par cancer chez les femmes en 2016. Le cancer du sein a, à lui seul, représenté 25 % de tous les cas de cancer et 15 % de tous les décès par cancer chez les femmes dans le monde en 2012. Des études ont montré que la détection précoce est la clé pour améliorer le taux de survie au cancer du sein. Lorsque le cancer du sein est diagnostiqué à un stade précoce, la patiente peut être guérie dans neuf cas sur dix. Les techniques d'imagerie jouent un rôle important dans la détection, le diagnostic et le suivi thérapeutique du cancer du sein. Pour le dépistage et le diagnostic du cancer du sein, les techniques d'imagerie mammaire aux rayons X, y compris la mammographie numérique plein champ et la tomosynthèse mammaire numérique, sont les modalités les plus cliniquement mises en œuvre. La mammographie numérique plein champ (full field digital mammography ou FFDM, en anglais) est une technique d'imagerie radiographique bidimensionnelle (2D) du sein. Lors d'une acquisition FFDM, des images 2D (mammographies) du sein compressé sont obtenues, reflétant une atténuation des rayons X au niveau des pixels du sein imagé. Aujourd'hui, la FFDM est largement reconnue comme étant efficace pour réduire la mortalité par cancer du sein dans une population asymptomatique. Néanmoins, la sensibilité de la FFDM varie de 47,8% pour les seins les plus denses à 98% pour les seins les moins denses (77,6% en moyenne). La principale limitation de la sensibilité de la FFDM est due au chevauchement des tissus mammaires, ce qui pourrait diminuer la visibilité des lésions, en particulier dans les seins denses. Cela peut également créer de faux signes ressemblant à des résultats radiologiques, ce qui entraîne des rappels inutiles. Ces dernières années, la tomosynthèse mammaire numérique (digital breast tomosynthesis, DBT, ou mammographie 3D) a été introduite pour atténuer en partie le problème du chevauchement des tissus mammaires dans la FFDM. La DBT est une technique d'imagerie tridimensionnelle (3D) du sein basée sur la plateforme FFDM. Lors d'une acquisition DBT, plusieurs projections du sein comprimé sont acquises avec le tube à rayons X se déplaçant autour du sein dans une plage angulaire limitée (généralement entre 15 et 50 degrés). Un algorithme de reconstruction est ensuite utilisé pour obtenir un volume 3D du sein. Étant donné que les projections DBT sont acquises sur une plage angulaire limitée, les volumes DBT reconstruits ont une résolution en profondeur limitée et sont généralement examinés en faisant défiler dans le sens de la profondeur, à travers une pile d'images 2D parallèles au plan du détecteur, comme les mammographies 2D. Grâce à plusieurs essais cliniques récents à grande échelle, il a été démontré que la DBT améliore le taux de détection du cancer du sein par rapport à la FFDM, soit en tant que modalité autonome, soit en combinaison avec la FFDM. Dans le dépistage du cancer du sein par mammographie d'aujourd'hui, le taux de rappel moyen varie de 5 % à 12 %, tandis que moins de 5 % des patientes rappelées reçoivent un diagnostic de cancer du sein. L'amélioration de l'efficacité du dépistage du cancer du sein par mammographie est nécessaire dans la pratique clinique. Les systèmes de détection ou de diagnostic assistés par ordinateur (computer aided detection or diagnosis ou CAD, en anglais) sont conçus pour aider les cliniciens à détecter ou à classer les anomalies potentielles dans les examens cliniques. Au cours des deux dernières décennies, les systèmes CAD ont été largement développés pour la détection et le diagnostic du cancer du sein afin d'améliorer l'efficacité du dépistage et du diagnostic en mammographie. Depuis lors, plusieurs systèmes commerciaux de CAD 2D FFDM et 3D DBT ont été approuvés par les organismes de réglementation pour l'utilisation dans les pratiques cliniques. Au cours des dernières années, peuplées par le succès de l'intelligence artificielle et l'apprentissage profond (Deep Learning ou DL), il y a une forte tendance à développer des systèmes CAD basés sur le DL. Cependant, la nature axée sur les données du DL présente plusieurs défis au développement de ces CADs pour la mammographie en termes de collecte de données, de confidentialité des données et d'annotations d'experts. Les systèmes CAD existants basés sur le Deep Learning sont généralement développés à l'aide d'ensembles de données allant de dizaines à des centaines de milliers d'examens de patients. La mise en œuvre de la collecte de données de mammographie implique une préparation longue et fastidieuse, concernant les contrats et les détails d'exécution en collaboration avec les sites cliniques, et fait face à des défis juridiques concernant la protection de la confidentialité des données de santé, l'anonymisation et la désidentification des données des patients. Compte tenu de l'énorme besoin de données, la collecte de données reste le principal défi du développement de systèmes CAD basés sur l'apprentissage profond. De plus, les algorithmes de DL de pointe sont dominés par le paradigme de l'apprentissage supervisé, ce qui introduit un défi important dans le développement de ce type de CADs, en raison de la charge de travail requise pour obtenir des annotations précises d'experts, qui sont la plupart du temps des cliniciens. Enfin, le développement de systèmes CAD basés sur le DL repose non seulement sur d'énormes quantités de données et des annotations précises, mais également sur la variabilité des données d'entraînement entre différentes populations de patients. En raison du domain shift, un algorithme entraîné sur une population spécifique n'aura pas de bonnes performances sur un ensemble de données représentatif d'une autre population. Compte tenu des difficultés de collecte de données, des problèmes de confidentialité et de l'accès à des annotations précises en mammographie, la nécessité de collecter des données auprès de différentes populations rend le développement des CADs basés sur le DL encore plus difficile. En résumé, pour le développement des CADs basés sur le DL pour la mammographie, des recherches doivent être menées pour atténuer les défis liés aux données. Plus précisément, les méthodologies qui peuvent accélérer le processus de collecte de données, réduire ou atténuer les problèmes de confidentialité et les efforts d'annotation, en tenant compte de la variabilité et de l'hétérogénéité associées aux données de mammographie de différentes populations, doivent être étudiées. L'apprentissage fédéré (Federated Learning ou FL) est un nouveau paradigme d'apprentissage automatique qui a connu une traction accrue dans le domaine médical. Il atténue le besoin de collecter explicitement les données vers un emplacement centralisé, en décentralisant les copies des modèles et le processus d'apprentissage vers les emplacements où les données sont produites. Le modèle final est obtenu en agrégeant de manière collaborative les mises à jour de modèles calculées localement. Cependant, bien qu'il résolve le problème de la collecte de données, de préservation de la confidentialité des données, et de l'hétérogénéité statistique des données provenant de différentes sources, le FL n'améliore pas l'efficacité du processus d'annotation des données. Ce problème peut être atténué par l'apprentissage semi-supervisé, un paradigme d'apprentissage automatique qui permet l'entraînement de modèles en utilisant des données non annotées en combinaison avec des données annotées. Les progrès récents de l'entraînement semi-supervisé pour les modèles d'apprentissage profond ont montré qu'en exploitant d'énormes quantités de données supplémentaires non étiquetées, les performances du modèle dans les tâches supervisées telles que la classification et la détection d'objets peuvent être considérablement améliorées, par rapport à un apprentissage effectué uniquement sur des données étiquetées. De nos jours, les performances des modèles d'entraînement semi-supervisés tendent à se rapprocher de celles des modèles d'entraînement supervisés, en utilisant une faible proportion de données étiquetées (jusqu'à 10 %). Bien qu'il existe actuellement une tendance de recherche croissante à appliquer des techniques de pointe semi-supervisées et d'auto-apprentissage en imagerie médicale, peu a été fait pour la mammographie. Cette thèse vise à relever les défis de données mentionnés ci-dessus dans le développement d'un CAD basé sur l'apprentissage profond pour la mammographie, en combinant les apprentissages fédéré et semi-supervisé. On développera des modèles de détection et de classification basés sur le Deep Learning pour la FFDM 2D et la DBT 3D qui exploitent des données non étiquetées en utilisant des techniques semi-supervisées, et on les entraînera de manière fédérée. Pour valider l'architecture mise en œuvre, on va d'abord simuler un environnement d'apprentissage fédéré, en distribuant des jeux de données de mammographie multi-sources à différents serveurs locaux. La conception de la simulation doit être soigneusement pensée pour imiter des configurations de dépistage mammographiques réalistes à partir de différents sites dans différentes populations. Les performances du modèle entraîné à l'aide de l'apprentissage fédéré seront comparées à celles des modèles formés sur des serveurs individuels. Enfin, un déploiement potentiel de l'architecture implémentée sur des sites cliniques pourra être envisagé au cours de cette thèse.