Thèse soutenue

Utilisation secondaire des données textuelles hospitalières : le défi des biais et de la reproductibilité

FR  |  
EN
Auteur / Autrice : William Digan
Direction : Anita BurgunBastien Rance
Type : Thèse de doctorat
Discipline(s) : Informatique médicale
Date : Soutenance le 18/12/2020
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Centre de recherche des Cordeliers (Paris ; 2007-....)
Jury : Président / Présidente : Xavier Tannier
Examinateurs / Examinatrices : Xavier Tannier, Sarah Cohen-Boulakia, Gayo Diallo, Frédéric Lemoine
Rapporteurs / Rapporteuses : Sarah Cohen-Boulakia, Gayo Diallo

Résumé

FR  |  
EN

Données considérables. Ces données proviennent de sources variées et hétérogènes. Nous nous sommes intéressés au cas particulier des données textuelles : les textes cliniques (comme les comptes rendus, les lettres de sortie, les ordonnances…) sont écrits en langue naturelle. Les médecins y décrivent les antécédents médicaux, mais aussi sa condition actuelle, ses symptômes, les traitements médicamenteux et les effets indésirables ressentis par le patient, etc. Aujourd'hui, les textes cliniques restent difficiles à exploiter automatiquement. Le traitement automatique des langues permet d’extraire ces informations des textes. Des systèmes existent actuellement mais ils sont principalement dédiés à l’extraction d’informations des textes cliniques anglais. En français, la communauté a développé de nombreuses ressources, mais il n’existe pas d’équivalent à ces systèmes complets. Dans cette thèse, nous nous intéressons à la réutilisation des données issues des textes en nous focalisant sur trois dimensions : (1) la qualité, autour de la question de l'impact de la duplication dans les textes cliniques (2) les paramètres d’une analyse reproductible et (3) comment faciliter l’accès à des analyses reproductibles. Les duplications dans les textes cliniques possèdent deux origines : (i) les duplications liées à la structure du document (titres de sections, zones administratives ...) et (ii) les duplications issues de copier-coller fait par le médecin traitant (pour garder une trace des événements médicaux du patient). Ces duplications entrainent des biais dans l’élaboration de modèle de traitement automatique des langues. Dans ce cadre, nous avons souhaité définir une méthode pour identifier les duplications. Cette méthode a été appliquée dans deux cas d’usages. Nous nous plaçons dans le cadre de l’étude des duplications intra-patients (les duplications associées aux documents d’un même patient). Nous avons cherché à caractériser l’impacts sur des modèles de traitement automatique des langues de la présence (a) de dates relatives ou (b) de mention de médicaments au sein de duplication. Notre méthode est efficace et a permis de mettre en évidence la nécessité de rechercher ces duplications pour la réutilisation des textes. La bio-informatique cherche des solutions pour répondre à la crise de la reproductibilité des expériences en science. Par exemple, les Workflows Managements Systems permettent de combiner des outils hétérogènes pour élaborer de pipelines d'analyse. Dans cette étude, nous avons voulu explorer si l’utilisation des Workflows Managements Systems pouvait améliorer la reproductibilité des analyses en traitement automatique des langues en milieu clinique. Pour cela nous avons identifié des critères de reproductibilité issus de la littérature et nous avons analysé 7 systèmes de traitement automatiques des langues en milieu clinique à la lumière de ces critères. Pour finir, grâce aux critères de reproductibilité définis, nous avons élaboré une architecture modulaire pour le traitement des langues. Ce système se compose de deux contributions. PyMedExt propose à la fois un format d’annotations des textes cliniques et un format d’annotateur simple. PyMedExt propose également un système de workflow linéaire. Pour faire face au volume de données textes, nous proposons PyMedExtFlow qui permet de simplifier l’usage d’un Workflow Management System. PyMedExtFlow permet de combiner des outils standardisés au format PyMedExt, de piloter le déploiement du workflow et assure la traçabilité et un niveau minimum de reproductibilité des analyses.