Développement d’un outil d’aide à la décision thérapeutique pour quatre maladies rares : le lupus érythémateux, la sclérodermie systémique, la maladie de Takayasu, le syndrome des anti-phospholipides
Auteur / Autrice : | Christel Gérardin |
Direction : | Fabrice Carrat, Arsène Mekinian |
Type : | Thèse de doctorat |
Discipline(s) : | Science des données |
Date : | Soutenance le 29/09/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Institut Pierre Louis d'épidémiologie et de santé publique (Paris ; 2014-....) |
Jury : | Président / Présidente : Anne-Sophie Jannot |
Examinateurs / Examinatrices : Sophie Georgin-Lavialle, Marie Frank-Soltysiak | |
Rapporteur / Rapporteuse : Pierre Zweigenbaum, Marc Cuggia |
Résumé
Contexte : Les dossiers médicaux électroniques et les entrepôts de données de santé donnent accès à un grand volume d'informations cliniques riches mais souvent non structurées (c'est-à-dire en texte brut). Les maladies auto-immunes sont rares dans la population générale et il est donc difficile de mener des essais thérapeutiques en raison de la taille trop réduite des échantillons. Pour fonder la décision médicale, la présentation de l'analyse de cas similaires peut être une aide précieuse, permettant un raisonnement par analogie. Objectif : L’objectif de la thèse est l’extraction automatique de cohortes de patients similaires, à partir d’informations directement présentes dans les notes cliniques (symptômes, comorbidités, résultats de biologie et d’imagerie, etc..), avec un enjeu central d’interprétabilité des résultats pour les cliniciens. Méthode : La question initiale pour la construction des cohortes de patients similaires est la validation d’une modélisation du patient permettant le calcul d’une similarité cliniquement interprétable, à partir des informations des comptes-rendus. Un prototype d'extraction automatique de cas similaires à partir de l'entrepôt de données de santé de l'AP-HP a été développé pour 4 maladies auto-immunes : le lupus érythémateux disséminé, la sclérodermie, le syndrome des antiphospholipides et la maladie de Takayasu. Les cas similaires présentent des maladies et des symptômes semblables à ceux du patient traité, et sont sélectionnés à partir des informations présentes dans les rapports médicaux. Le prototype comprend plusieurs étapes : 1/ Présélection des patients d'intérêt à l'aide d'une méthode d'expansion de requête basée sur un algorithme de type Transformer (sur 20 phénotypes, précision moyenne 0,93 [0,90 ; 0,96] et rappel moyen 0,78 [0,71 ; 0,85]), ayant fait l’objet d’une soumission (article 2). 2/ Extraction des concepts médicaux d'intérêt (symptômes, maladies, valeurs biologiques et traitements) par un algorithme de “deep learning” avec un score F1 moyen de 0,81 [0,79 ; 0,82], avec une méthode originale d’annotation en signes et symptômes pathologiques versus physiologiques pour fournir un modèle du patient proche de la clinique. 3/ Classification des concepts extraits selon les principaux domaines médicaux (neurologie, hématologie, cardiologie, etc.), correspondant aux en-têtes des sous-chapitres de la branche C-maladie du MeSH [5], permettant de calculer une similarité avec le patient index selon les domaines d'intérêt. Ce classifieur multi label est basé sur un transformer BERT entraîné sur l’ensemble des synonymes des termes MeSH de l’UMLS et un jeu de concepts annotés. Les performances de ce classifieur ont été testées sur un jeu de données cliniques externes avec une mesure F1 de 0.809 à 0.811 en fonction des modèles testés et a fait l’objet d’une publication (article 4). Les résultats biologiques sont également extraits et comparés par leur z-score permettant un calcul de similarité multimodale. Un prétraitement des textes cliniques avec analyse des différentes sections pertinentes du texte (“Histoire de la maladie”, “Traitement à l’entrée” etc..). La méthode de construction d'une cohorte de patients similaires a été validée pour des phénotypes complexes tels que la pneumopathie interstitielle dans la sclérodermie (précision allant de 0,65 [0,58 ; 0,72] à 0,98 [0,97 ; 0,99]) et publiée (article 5). 4/ Pour ces cas similaires, les traitements et leur posologie sont extraits et standardisés selon leur classe thérapeutique (ATC).