Ρredicting Clinical Diagnοsis by cοmbinig BiοΜedical Οntοlοgies and Language Μοdels
Auteur / Autrice : | Safaa Menad |
Direction : | Fatima Soualmia |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 02/12/2021 Soutenance le 06/12/2024 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École Doctorale Mathématiques, Information, Ingénierie des Systèmes |
Partenaire(s) de recherche : | Laboratoire : LABORATOIRE D'INFORMATIQUE DE TRAITEMENT DE L'INFORMATION ET DES SYSTEMES |
Établissement co-accrédité : Université de Rouen Normandie | |
Jury : | Président / Présidente : Thierry Lecroq |
Examinateurs / Examinatrices : Fatima Soualmia, Xavier Tannier, Cassia Trojahn, Said Abdeddaim, Lylia Abrouk, Thierry Lecroq | |
Rapporteur / Rapporteuse : Xavier Tannier, Cassia Trojahn |
Mots clés
Mots clés contrôlés
Résumé
La première partie de cette thèse traite de la conception de modèles neuronaux siamois entraînés pour la similarité sémantique entre textes biomédicaux et de leur application à des tâches de TAL sur des documents biomédicaux. L’entraînement de ces modèles a été réalisé en plongeant les titres et résumés du corpus PubMed avec le thésaurus MeSH dans un même espace de représentation. Dans la seconde partie nous utilisons ces modèles pour aligner et enrichir les terminologies de l’UMLS (Unified Medical Language System) et automatiser l’intégration de nouvelles relations entre concepts similaires provenant notamment de maladies (DOID), de médicaments (DRON) et de symptômes. Ces relations enrichies permettent d’améliorer l’exploitation de ces ontologies, facilitant ainsi leur utilisation dans diverses applications cliniques et scientifiques. Nous proposons de plus des approches de validation à l’aide des ressources telles que les LLMs, l’OpenFDA, le Métathésaurus et le réseau sémantique de l’UMLS que nous complétons par la validation manuelle d’experts du domaine.