Thèse soutenue

Extraction et normalisation d'entités simples et structurées dans les documents médicaux

FR  |  
EN
Auteur / Autrice : Perceval Wajsbürt
Direction : Xavier TannierChristel Daniel
Type : Thèse de doctorat
Discipline(s) : Science des données
Date : Soutenance le 14/12/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique médicale et d'ingénierie des connaissances en e-santé (Paris ; 2014-....) - Laboratoire d'Informatique Médicale et Ingénierie des Connaissances en e-Santé / LIMICS
Jury : Président / Présidente : Sandra Bringay
Examinateurs / Examinatrices : Anita Burgun
Rapporteurs / Rapporteuses : Vincent Claveau, Timothy Miller

Résumé

FR  |  
EN

Les documents cliniques hospitaliers constituent de riches sources d'information pour diverses applications telles que le recrutement de patients pour la recherche clinique, la surveillance épidémiologique, le codage médical et les outils d'aide à la décision. Cependant, étant essentiellement rédigés en langue naturelle, ces documents ne se prêtent pas aisément à des traitements informatiques à grande échelle et doivent d'abord être structurés. Nous visons à extraire les entités mentionnées dans ces documents, qu'elles soient simples ou structurées, c'est-à-dire contenant plusieurs étiquettes ou parties, et à les normaliser selon des bases de concepts. Nous contribuons à plusieurs tâches de traitement du langage naturel (TAL), à savoir la reconnaissance des entités nommées, la normalisation des entités médicales et l'extraction d'entités structurées. Nous nous intéressons notamment à l'entraînement de modèles par apprentissage profond (deep learning) dans des conditions de données limitées, pour des langues autres que l'anglais et dans le domaine clinique. Nous structurons notre approche en trois étapes : surligner, normaliser et composer. Nous proposons d'abord plusieurs méthodes pour surligner des entités simples, notamment lorsqu'elles se chevauchent dans les textes. Nous développons ensuite une approche multilingue à grande échelle pour les normaliser dans plusieurs langues. Enfin, pour composer ces entités simples en entités structurées, nous proposons une nouvelle méthode basée sur les cliques de mentions et les relations de portée. Nous l'évaluons sur un nouveau corpus annoté de comptes rendus cliniques de mammographies.