TALMed : Traitement Automatique de la Langue Médicale
Auteur / Autrice : | Adrien Bazoge |
Direction : | Emmanuel Morin, Béatrice Daille, Pierre-Antoine Gourraud |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 16/01/2024 |
Etablissement(s) : | Nantes Université |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des Sciences du Numérique de Nantes |
Jury : | Président / Présidente : Gayo Diallo |
Examinateurs / Examinatrices : Laure Soulier, Didier Schwab | |
Rapporteurs / Rapporteuses : Laure Soulier, Didier Schwab |
Mots clés
Mots clés contrôlés
Résumé
La collecte massive de données de santé a permis l’émergence d’usages secondaires, notamment la recherche et l’évaluation de la qualité des soins. Pour une utilisation optimale, ces données doivent être harmonisées et stockées dans des entrepôts de données de santé (EDS), souvent sous forme textuelle. Le traitement automatique des langues (TAL) est alors nécessaire pour en extraire des informations à grande échelle. Les méthodes actuelles de TAL s’appuient principalement sur des modèles de langue basés sur l’architecture Transformer, qui nécessitent d’être adaptés au domaine médical pour tirer profit du potentiel de ces modèles. Dans cette thèse, nous explorons deux thématiques : l’adaptation de ces modèles au contexte médical français et leur application en recherche clinique. Premièrement, nous menons plusieurs études d’adaptation au domaine médical de différents modèles pré-entraînés existants. Ces études ont pour but d’évaluer l’impact de différents paramètres pour l’adaptation des modèles, comme la nature des données ou la stratégie de pré-entraînement. Enfin, l’utilisation de ces modèles est étudiée dans deux projets de re- cherche clinique. Le projet GAVROCHE examine la relation entre la variabilité glycémique et la mortalité chez les patients atteints d’in- suffisance cardiaque aiguë. Le second projet vise à extraire des déterminants sociaux de santé à partir des comptes rendus cliniques. Ces cas montrent le potentiel du TAL pour ex- traire des informations cliniques cruciales.