Contribution à la classification multimodale dans le cas d'une rareté de données : application au diagnostic précoce de la maladie de Lyme
Auteur / Autrice : | Sk Imran Hossain |
Direction : | Engelbert Mephu-Nguifo |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 11/05/2023 |
Etablissement(s) : | Université Clermont Auvergne (2021-...) |
Ecole(s) doctorale(s) : | École doctorale des sciences pour l'ingénieur (Clermont-Ferrand) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes |
Jury : | Président / Présidente : Vincent Barra |
Examinateurs / Examinatrices : Jocelyn De Goër de Herve, Richard Emilion, Olivier Lesens | |
Rapporteurs / Rapporteuses : Germain Forestier, Isabelle Bichindaritz, Anna Fabijanska |
Mots clés
Résumé
Les récents progrès des techniques d'apprentissage profond ont permis la mise au point de modèles d'intelligence artificielle (IA) pour aider au diagnostic des maladies de la peau. Dans la littérature il est montré que l'intégration de données provenant de plusieurs sources dans le processus d'analyse de données peut améliorer considérablement les performances du modèle d'IA par rapport à une analyse basée sur une source unique, notamment dans le cas du diagnostic médical. Bien que les systèmes basés sur l'apprentissage profond rivalisent avec les experts dermatologues pour le diagnostic du cancer de la peau, leur utilisation reste limitée au niveau de maladies telles que la maladie de Lyme, où les données d'entraînement sont rares.Dans cette thèse, nous nous sommes focalisés sur le développement d'un modèle d'IA appliqué à la maladie de Lyme avec la particularité que cette maladie nécessite à la fois des données contextuelles de patients et des images de lésions cutanées pour pouvoir établir un diagnostic correct. En outre, il n'existe aucun jeu de données comprenant ces deux modalités. Le pré-apprentissage auto-supervisé est efficace pour résoudre le problème de la rareté des données lorsqu'un grand nombre de données du domaine sont disponibles par ailleurs. Cependant, pour certaines maladies comme la maladie de Lyme, il est difficile de collecter un grand nombre d'images du domaine. Pour faire face à ce problème, nous avons proposé une approche personnalisée d'apprentissage par transfert afin d'améliorer les performances du réseau de neurones convolutifs pré-entraîné ImageNet, en mettant en place une phase de pré-entraînement supplémentaire avec un ensemble de données hors-domaine. En outre, pour faire face au manque de données d'entraînement concernant les données contextuelles des patients, nous avons proposé une approche d'élicitation d'opinion d'experts (médecins) pour créer un modèle qui calcule la probabilité de la maladie à partir des données relatives à un patient avec une validation intuitive du modèle basée sur un arbre de décision et une analyse formelle des concepts. L'approche d'élicitation proposée, basée sur un questionnaire, est moins exigeante pour les experts. Nous avons également proposé une approche pour combiner les scores de probabilité de la maladie provenant de plusieurs modalités en assurant un droit de veto pour une modalité, en fonction du choix d'un expert.Dans le cadre de cette thèse, nous avons constitué un jeu de données d'images de lésions cutanées, liées à la maladie de Lyme avec une classification réalisée par un panel de dermatologues experts. Nous avons également créé un autre jeu de données d'annotation de masque de poils de lésions cutanées permettant de traiter les artefacts liés aux poils sur les lésions, de manière efficace. Les techniques proposées dans cette thèse ont été utilisées pour créer une application mobile d'aide au diagnostic précoce de la maladie de Lyme, mais elles pourraient être utiles à d'autres maladies similaires pour lesquelles il existe un problème de pénurie de données.