Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2013

Clinical Records De-Identification: Performances and Limits of Rule-based and Machine-Learning based Approaches

Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique

Résumé

This work focuses on the automatic de-identification of clinical records. The de-identification consists in concealing personal information within documents while preserving clinical data. This task is mandatory so as to use clinical records outside of the patient care process, for case study publications or in scientific research (producing automatic system to process the documents, similar cases search, etc.). We defined 12 categories of information to de-identify: nominative data (last names, first names, etc.) and numerical data (ages, dates, zip codes, etc.). Two approaches have been used to de-identify the documents, an expert knowledge based method using regular expressions and lexical mapping, and a machine-learning process based upon CRF. Several experiments have been performed including the use of each approach separately or in combination. We achieved our best results (overall F-measure=0.922) while combining both approaches and merging last names and first names categories into a single one (recall=0.953 and F-measure=0.931 on this category). This work is combined with the production of several resources: a guidelines, a gold standard corpus composed of 562 documents among them 100 double annotated with adjudication and interannotator agreement computation (K=0.807 before merging) and a de-identified corpus of 17,000 clinical records.
Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques.
Fichier principal
Vignette du fichier
these_grouin.pdf (1.4 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00848672 , version 1 (27-07-2013)

Identifiants

  • HAL Id : tel-00848672 , version 1

Citer

Cyril Grouin. Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique. Bio-informatique [q-bio.QM]. Université Pierre et Marie Curie - Paris VI, 2013. Français. ⟨NNT : ⟩. ⟨tel-00848672⟩
858 Consultations
4769 Téléchargements

Partager

Gmail Facebook X LinkedIn More