Thèse soutenue

Enrichissement et alignement sémantique d'οntοlοgies biοmédicales par mοdèles de langue

FR  |  
EN
Auteur / Autrice : Safaa Menad
Direction : Lina Fatima Soualmia
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/12/2024
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Établissement co-accrédité : Université de Rouen Normandie (1966-....)
Jury : Président / Présidente : Thierry Lecroq
Examinateurs / Examinatrices : Lina Fatima Soualmia, Thierry Lecroq, Cassia Trojahn dos Santos, Xavier Tannier, Lylia Abrouk, Saïd Abdeddaim
Rapporteurs / Rapporteuses : Cassia Trojahn dos Santos, Xavier Tannier

Résumé

FR  |  
EN

La première partie de cette thèse traite de la conception de modèles neuronaux siamois entraînés pour la similarité sémantique entre textes biomédicaux et de leur application à des tâches de TAL sur des documents biomédicaux. L’entraînement de ces modèles a été réalisé en plongeant les titres et résumés du corpus PubMed avec le thésaurus MeSH dans un même espace de représentation. Dans la seconde partie nous utilisons ces modèles pour aligner et enrichir les terminologies de l’UMLS (Unified Medical Language System) et automatiser l’intégration de nouvelles relations entre concepts similaires provenant notamment de maladies (DOID), de médicaments (DRON) et de symptômes. Ces relations enrichies permettent d’améliorer l’exploitation de ces ontologies, facilitant ainsi leur utilisation dans diverses applications cliniques et scientifiques. Nous proposons de plus des approches de validation à l’aide des ressources telles que les LLMs, l’OpenFDA, le Métathésaurus et le réseau sémantique de l’UMLS que nous complétons par la validation manuelle d’experts du domaine.