Cadre visuel interactif avec validation pour la génération explicable de rapports de radiographie thoracique
Auteur / Autrice : | Sayeh Gholipour picha |
Direction : | Alice Caplier, Dawood Al chanti |
Type : | Projet de thèse |
Discipline(s) : | Signal Image Parole Télécoms |
Date : | Inscription en doctorat le 14/11/2022 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images Parole Signal Automatique |
Equipe de recherche : ACTIV |
Mots clés
Mots clés libres
Résumé
À mesure que l'intelligence artificielle (IA) prend de l'importance dans le domaine des soins de santé, le besoin de modèles d'IA explicables devient de plus en plus évident. Les modèles de génération de rapports fournissent des interprétations textuelles détaillées des images médicales, telles que les radiographies pulmonaires (CXR), mais leur capacité de validation par des experts indépendants reste limitée. Cette recherche introduit une nouvelle approche pour valider les décisions d'IA dans le domaine médical grâce à une fusion de la modélisation de la vision et du langage, en se concentrant sur la localisation sémantique alignée sur des expressions fondées sur des experts. Notre objectif est de développer un modèle capable d'interpréter visuellement les rapports générés par CXR, soutenus par des scores de confiance pertinents. La solution proposée adopte un cadre multimodal intégrant des entrées d'image, de texte et de masque. Dans notre modèle principal, nous localisons chaque phrase des rapports CXR générés sur les images CXR correspondantes. Nous utilisons ensuite deux modèles auxiliaires, le premier sert à valider la correction de la localisation tandis que le second sert à valider la qualité et la fidélité du texte généré. Ce mécanisme de double notation améliore la validation à la fois du texte généré et de son interprétation visuelle, améliorant ainsi la certitude de la décision des modèles d'IA et générant une explicabilité visuelle et textuelle.