Thèse soutenue

Contribution à la valorisation des données textuelles libres dans le secteur de la santé

FR  |  
EN
Auteur / Autrice : Angie Nguyen
Direction : Samir Lamouri
Type : Thèse de doctorat
Discipline(s) : Informatique-traitement du signal (AM)
Date : Soutenance le 12/12/2022
Etablissement(s) : Paris, HESAM
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur
Partenaire(s) de recherche : Laboratoire : Laboratoire d'automatique, de mécanique et d'informatique industrielles et humaines (Valenciennes, Nord ; 1994-...) - Laboratoire d'Automatique, de Mécanique et d'Informatique industrielles et Humaines - UMR 8201
établissement de préparation de la thèse : École nationale supérieure d'arts et métiers (1780-....)
Jury : Président / Présidente : Zohra Cherfi-Boulanger
Examinateurs / Examinatrices : Samir Lamouri, Hind El Haouzi, Dimitris Kiritsis, Virginie Fortineau, Robert Pellerin, Evren Sahin
Rapporteurs / Rapporteuses : Hind El Haouzi, Dimitris Kiritsis

Résumé

FR  |  
EN

Récemment, les systèmes de santé ont été confrontés à de nombreux défis (gestion d’épidémie,demande volatile, condensation des temps de prise en charge, etc.), conduisant `a un besoin croissantd’informations améliorant les processus décisionnels. Par ailleurs, une part importante des donnéesdu secteur de la santé sont disponibles sous la forme de textes écrits en langage naturel (notes cliniques, messages sur les réseaux sociaux, etc.). Dans ce contexte, les récentes percées dans le domaine du Traitement Automatique des Langues (TAL), obtenues notamment grâce aux modèles de langage basés sur de l’apprentissage profond, ont ouvert de nouvelles opportunités pour déverrouiller ces informations et ainsi améliorer la gestion globale du secteur de santé. Les apports de ces outils sont potentiellement multiples, puisqu’ils permettraient d’enrichir les entrepôts de données de santé, fluidifier les transmissions d’information entre les différents acteurs et améliorer les processus allant de la prévision de la demande au suivi épidémiologique. Ainsi, cette thèse s’est consacrée à traiter de la valorisation des données textuelles libres dans le secteur de la santé. Deux revues de la littérature ont d’abord permis d’identifier les opportunités et enjeux d’application du TAL pour valoriser les diverses données textuelles disponibles et améliorer les processus de gestion. Toutefois, l’utilisation de ces techniques s’accompagne de plusieurs difficultés, telles que la grande variabilité et la nature implicite des expressions en langage naturel, ou encore la frugalité des données d’entraînement et d’évaluation des modèles. Ainsi, une méthodologie utilisant les modèles de langage récents basés sur les Transformers a été développée pour effectuer de l’extraction d’information de santé contextualisée (négations ou suspicions de maladies, etc.) à partir de textes variés, et ce, dans un contexte de frugalité de données d’entraînement en français. Enfin, une seconde contribution couplant des données médicales structurées à des données textuelles non structurées issues des médias d’information a été développée et validée sur deux cas réels dans l’industrie pharmaceutique.