Thèse soutenue

TALMed : Traitement Automatique de la Langue Médicale

FR  |  
EN
Auteur / Autrice : Adrien Bazoge
Direction : Emmanuel MorinBéatrice DaillePierre-Antoine Gourraud
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/01/2024
Etablissement(s) : Nantes Université
Ecole(s) doctorale(s) : École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Gayo Diallo
Examinateurs / Examinatrices : Laure Soulier, Didier Schwab
Rapporteurs / Rapporteuses : Laure Soulier, Didier Schwab

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La collecte massive de données de santé a permis l’émergence d’usages secondaires, notamment la recherche et l’évaluation de la qualité des soins. Pour une utilisation optimale, ces données doivent être harmonisées et stockées dans des entrepôts de données de santé (EDS), souvent sous forme textuelle. Le traitement automatique des langues (TAL) est alors nécessaire pour en extraire des informations à grande échelle. Les méthodes actuelles de TAL s’appuient principalement sur des modèles de langue basés sur l’architecture Transformer, qui nécessitent d’être adaptés au domaine médical pour tirer profit du potentiel de ces modèles. Dans cette thèse, nous explorons deux thématiques : l’adaptation de ces modèles au contexte médical français et leur application en recherche clinique. Premièrement, nous menons plusieurs études d’adaptation au domaine médical de différents modèles pré-entraînés existants. Ces études ont pour but d’évaluer l’impact de différents paramètres pour l’adaptation des modèles, comme la nature des données ou la stratégie de pré-entraînement. Enfin, l’utilisation de ces modèles est étudiée dans deux projets de re- cherche clinique. Le projet GAVROCHE examine la relation entre la variabilité glycémique et la mortalité chez les patients atteints d’in- suffisance cardiaque aiguë. Le second projet vise à extraire des déterminants sociaux de santé à partir des comptes rendus cliniques. Ces cas montrent le potentiel du TAL pour ex- traire des informations cliniques cruciales.