Thèse soutenue

Contributions à l'extraction d'information dans un entrepôt de données hospitalier : une aide pour la recherche clinique

FR  |  
EN
Auteur / Autrice : Sébastien Cossin
Direction : Vianney JouhetGayo Diallo
Type : Thèse de doctorat
Discipline(s) : Santé publique Option Informatique et Santé
Date : Soutenance le 28/09/2022
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Sociétés, politique, santé publique (Talence, Gironde ; 2011-....)
Partenaire(s) de recherche : Laboratoire : Bordeaux population Health
Jury : Président / Présidente : Rodolphe Thiébaut
Examinateurs / Examinatrices : Sandra Bringay, Lina Fatima Soualmia
Rapporteurs / Rapporteuses : Adrien Coulet, Bastien Rance

Résumé

FR  |  
EN

Le développement des technologies numériques a conduit à la numérisation des informations médicales et à la dématérialisation des dossiers papiers en dossiers patients informatisés (DPI). Les données générées dans un hôpital contiennent des informations précieuses pour la recherche médicale. Les hôpitaux ont mis en place des entrepôts de données (EDS) pour faciliter l’utilisation secondaire des données. Dans un EDS, les chercheurs ont besoin d’identifier les patients éligibles à une étude clinique et de retourner au DPI pour remplir le cahier d’observation électronique d’une étude. La principale difficulté réside dans le caractère non structuré des informations médicales présentes sous forme de texte libre. Des méthodes de traitement automatique de la langue sont nécessaires pour structurer les données afin de faciliter leur interrogation et leur extraction. L’objectif de cette thèse était de développer des outils et des méthodes pour aider les chercheurs à mener des études de faisabilité et à trouver des informations dans un DPI. Les principales contributions de cette thèse sont les suivantes: une terminologie sur les médicaments en langue française. De nombreuses études s’intéressent à l’utilisation, l’efficacité et à la tolérance des médicaments en vie réelle. Les médicaments permettent aussi d’identifier certaines maladies. L’absence d’une terminologie normalisée du médicament a conduit à la construction de Romedi, référentiel ouvert du médicament, qui offre de bonnes performances pour détecter et identifier les médicaments dans les données hospitalières. Un annotateur sémantique scalable à un entrepôt de données. L’annotation sémantique consiste à relier des séquences de mots d’un document aux concepts d’une terminologie. Elle permet la détection et l’indexation de concepts médicaux. Comment indexer des millions de documents d’un EDS avec des terminologies médicales contenant plusieurs centaines de milliers de termes ? Dans ce travail, nous proposons un nouvel algorithme, IAMsystem, scalable à l’échelle d’un entrepôt de données et dont la complexité dépend peu de la taille d’une terminologie. Un inventaire de sens des abréviations médicales. Les abréviations sont largement utilisées en médecine. Elles ajoutent de la complexité aux tâches de traitement automatique de la langue et doivent être prises en compte par un annotateur sémantique. Ce travail présente deux algorithmes pour détecter automatiquement des abréviations à partir d’un corpus de documents médicaux et propose le premier inventaire d’abréviations issu de données hospitalières en langue française. Une stratégie d’appariements de données hospitalières avec les certificats de décès Le statut vital des individus est d’une importance capitale pour de nombreuses études épidémiologiques et les études de faisabilité ont besoin de connaître si les patients éligibles sont vivants ou décédés. Les grands volumes de données nécessitent de recourir à un stratagème pour diminuer le nombre de comparaisons. Nous montrons qu’un modèle d’espace vectoriel offre d’excellents résultats pour diminuer le nombre de comparaisons et qu’il est possible de générer automatiquement un gold standard à partir de données hospitalières pour apparier données hospitalières et certificats de décès par apprentissage automatique. Une interface pour la revue des DPI. Une interface, SmartCRF, a été développée pour rechercher rapidement des informations dans un DPI. Elle est constituée d’une ligne de vie, d’un moteur de recherche, d’une visionneuse de documents et d’un système de recommandation. Par rapport au logiciel métier, elle permet de diminuer le temps passé à vérifier les critères d’inclusion et d’exclusion d’une étude de faisabilité et elle facilite le remplissage d’un cahier d’observation électronique.