Enrichissement et alignement sémantique d'οntοlοgies biοmédicales par mοdèles de langue
Auteur / Autrice : | Safaa Menad |
Direction : | Lina Fatima Soualmia |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/12/2024 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...) |
Établissement co-accrédité : Université de Rouen Normandie (1966-....) | |
Jury : | Président / Présidente : Thierry Lecroq |
Examinateurs / Examinatrices : Lina Fatima Soualmia, Thierry Lecroq, Cassia Trojahn dos Santos, Xavier Tannier, Lylia Abrouk, Saïd Abdeddaim | |
Rapporteurs / Rapporteuses : Cassia Trojahn dos Santos, Xavier Tannier |
Mots clés
Mots clés contrôlés
Résumé
La première partie de cette thèse traite de la conception de modèles neuronaux siamois entraînés pour la similarité sémantique entre textes biomédicaux et de leur application à des tâches de TAL sur des documents biomédicaux. L’entraînement de ces modèles a été réalisé en plongeant les titres et résumés du corpus PubMed avec le thésaurus MeSH dans un même espace de représentation. Dans la seconde partie nous utilisons ces modèles pour aligner et enrichir les terminologies de l’UMLS (Unified Medical Language System) et automatiser l’intégration de nouvelles relations entre concepts similaires provenant notamment de maladies (DOID), de médicaments (DRON) et de symptômes. Ces relations enrichies permettent d’améliorer l’exploitation de ces ontologies, facilitant ainsi leur utilisation dans diverses applications cliniques et scientifiques. Nous proposons de plus des approches de validation à l’aide des ressources telles que les LLMs, l’OpenFDA, le Métathésaurus et le réseau sémantique de l’UMLS que nous complétons par la validation manuelle d’experts du domaine.