Thèse soutenue

Extraction d'informations reproductible à partir de textes cliniques français : application aux pathologies chroniques

FR  |  
EN
Auteur / Autrice : Thibaut Fabacher
Direction : Adrien CouletAurélie Névéol
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/06/2025
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Health data- and model- driven approaches for knowledge acquisition (Paris ; 2025-....)
Jury : Président / Présidente : Jérôme Avouac
Examinateurs / Examinatrices : Claire Nédellec, Solen Quiniou
Rapporteurs / Rapporteuses : Marc Cuggia, Natalia Grabar
DOI : 10.70675/d47b7ea1z817fz4bbcz902bzc38aa6eed42e

Résumé

FR  |  
EN

L'extraction d'informations cliniques à partir des dossiers patients informatisés représente un enjeu pour la réutilisation des données de santé. La majorité des informations étant renseignées sous forme de texte libre, le traitement automatique des langues devient indispensable pour valoriser ces données. Cependant, les méthodes existantes sont principalement développées pour l'anglais et pour des types de textes spécifiques, limitant leur transposition à d'autres langues et contextes cliniques. Cette thèse explore des approches innovantes de traitement automatique des langues appliquées aux données cliniques en français, à travers le cas de la polyarthrite rhumatoïde. Ce travail, centré sur les questions de reproductibilité des méthodes et sur la complexité de leur adaptation dans un contexte hospitalier aux ressources de calcul limitées, s'articule autour de trois axes complémentaires. Le premier s'intéresse au phénotypage électronique des patient.e.s atteint.e.s de polyarthrite rhumatoïde et à l'identification des séjours hospitaliers en rapport avec leur maladie. Pour cela, trois stratégies ont été comparées : une méthode de référence basée sur des règles simples, la réutilisation d'un algorithme supervisé déjà entraîné, et l'entraînement d'un algorithme d'apprentissage semi-supervisé. L'adaptation de ces algorithmes à des nouvelles données, comme celles des hôpitaux universitaire de Strasbourg, n'est pas aisée et engendre une baisse des performances. L'algorithme supervisé obtient les meilleurs résultats, tandis que la méthode simple à base de règles offre un bon compromis entre performance et facilité d'implémentation. Il est également constaté que le phénotypage au niveau des séjours s'avère plus complexe que celui au niveau des patient·e·s, avec des performances systématiquement plus faibles. Le deuxième axe de ce travail porte sur la création d'un corpus annoté de textes cliniques pour l'extraction des médicaments et de leurs attributs, tels que la posologie, la fréquence ou la voie d'administration. Un schéma d'annotation original, s'inspirant du concept linguistique de cadres sémantiques, a été développé pour intégrer également la dimension temporelle (début, arrêt, modification de traitement) et la contextualisation des informations extraites (négation, hypothèse). Ce corpus de 715 textes cliniques constitue une ressource fondamentale pour l'entraînement et l'évaluation d'algorithmes automatiques d'extraction d'information en français. Le troisième axe introduit une architecture innovante pour l'extraction des relations entre les médicaments et leurs attributs. Contrairement aux approches décrites dans la littérature qui traitent chaque paire d'entités individuellement, la méthode proposée permet de classifier l'ensemble des relations en une seule fois. Cette approche réduit le temps de calcul tout en maintenant des performances pour l'extraction d'information comparables à l'état de l'art. L'efficience computationnelle est particulièrement importante pour une intégration dans des environnements hospitaliers équipé d'une infrastructure de calcul limitée. Les expérimentations menées sur le français et l'anglais attestent de la robustesse et de la portabilité de la méthode proposée. En conclusion, ce travail met en évidence les difficultés persistantes pour valoriser l'information clinique des dossiers patients informatisés et la nécessité de créer et mettre à disposition des ressources spécifiques pour la langue française. Les méthodes et ressources développées ici sont une première étape dans l'analyse automatique des textes libres contenus dans le dossier patient informatisé.