Thèse soutenue

Extraction de relations basée sur des prompts pour la pharmacovigilance

FR  |  
EN
Auteur / Autrice : Hui-Syuan Yeh
Direction : Pierre ZweigenbaumThomas Lavergne
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/12/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) - Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (Berlin ; 1988-....) - Nara Institute of Science and Technology - Graduate School of Information Science
Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Jury : Président / Présidente : Pascale Sébillot
Examinateurs / Examinatrices : Xavier Tannier, Fabio Rinaldi, Claire Nédellec
Rapporteurs / Rapporteuses : Xavier Tannier, Fabio Rinaldi
DOI : 10.70675/762a3598ze739z4c47za72ez62e5a986fd1f

Résumé

FR  |  
EN

L'extraction de connaissances à jour à partir de sources textuelles diverses est importante pour la santé publique. Alors que les sources professionnelles, notamment les revues scientifiques et les notes cliniques, fournissent les connaissances les plus fiables, les observations apportées dans les forums de patients et les médias sociaux permettent d'obtenir des informations complémentaires pour certains thèmes. Détecter les entités et leurs relations dans ces sources variées est particulièrement précieux. Nous nous concentrons sur l'extraction de relations dans le domaine médical. Nous commençons par souligner l'incohérence de la terminologie utilisée dans la communauté et clarifions les configurations distinctes employées pour la construction et l'évaluation d'un système d'extraction de relations. Pour obtenir une comparaison fiable, nous comparons les systèmes en utilisant la même configuration. Nous effectuons également une série d'évaluations stratifiées afin d'étudier plus en détail les propriétés des données qui affectent les performances des modèles. Nous montrons que la performance des modèles tend à diminuer avec la densité des relations, la diversité des relations et la distance entre les entités. Par la suite, ce travail explore un nouveau paradigme d'entraînement pour l'extraction de relations biomédicales : les méthodes à base de prompt avec des modèles de langue masqués. Dans ce contexte, les performances dépendent de la qualité de la conception des prompts. Cela nécessite des efforts manuels et une connaissance du domaine, notamment dans la conception des mots étiquettes qui relient les prédictions du modèle aux classes de relations. Pour surmonter ce problème, nous introduisons une technique de génération automatique de mots étiquettes qui s'appuie sur un analyseur en dépendance et les données d'entraînement. Cette approche minimise l'intervention manuelle et améliore l'efficacité des modèles avec moins de paramètres à affiner. Notre approche a des performances similaires aux autres méthodes de verbalisation sans nécessiter d'entraînement supplémentaire. Ensuite, ce travail traite de l'extraction d'informations à partir de textes écrits par des auteurs non spécialistes sur les effets indésirables des médicaments. À cette fin, dans le cadre d'un effort conjoint, nous avons constitué un corpus trilingue en allemand, français et japonais collecté à partir de forums de patients et de plates-formes de médias sociaux. Le défi et les applications potentielles du corpus sont discutés. Nous présentons des expériences initiales sur le corpus en mettant en avant trois points : l'efficacité d'un modèle multilingue dans un contexte translingue, une préparation d'exemples négatifs pour l'extraction de relations qui tient compte de la coréférence et de la distance entre les entités, et des méthodes pour traiter la distribution hautement déséquilibrée des relations. Enfin, nous intégrons des informations provenant d'une base de connaissances médicales dans une approche à base de prompt avec des modèles de langue autorégressifs pour l'extraction de relations biomédicales. Notre objectif est d'utiliser des connaissances factuelles externes pour enrichir le contexte des entités impliquées dans la relation à classifier. Nous constatons que les modèles généraux bénéficient particulièrement des connaissances externes. Notre dispositif expérimental révèle que différents marqueurs d'entités sont efficaces dans différents corpus. Nous montrons que les connaissances pertinentes sont utiles, mais que le format du prompt a un impact plus important sur les performances que les informations supplémentaires elles-mêmes.