Thèse soutenue

Apprentissage automatique pour les bases de données de santé massives

FR  |  
EN
Auteur / Autrice : Maryan Morel
Direction : Stéphane GaïffasEmmanuel Bacry
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 06/05/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Centre de mathématiques appliquées de l'Ecole polytechnique (Palaiseau ; 1974-....)
Jury : Président / Présidente : Stanley Durrleman
Examinateurs / Examinatrices : Stéphane Gaïffas, Emmanuel Bacry, Jean-Philippe Vert, Rodolphe Thiébaut, Mounia Nacima Hocine, Marc Lavielle
Rapporteurs / Rapporteuses : Jean-Philippe Vert, Rodolphe Thiébaut

Résumé

FR  |  
EN

Cette thèse développe des méthodes innovantes exploitant des bases de données observationelles massives (BDOM) en santé, et plus particulièrement le Système National des Données de Santé (SNDS).Ces bases de données enregistrent des informations administratives qui accompagnent les soins et leur facturation.La collecte des données du SNDS a une visée comptable, et non épidémiologique. L'identification et l'extraction des historiques de soin nécessite ainsi des transformations coûteuses.Le premier chapitre introduit SCALPEL3, une suite logicielle open-source qui facilite l'extraction reproductible de concepts médicaux et la manipulation de données de cohorte.Ce logiciel tire partie du calcul distribué, de la dénormalisation des données, et du stockage orienté colonne des données.SCALPEL3 est maintenant utilisée au sein de la Caisse Nationale de l'Assurance Maladie, à la Direction de la Recherche, des Études, de l'Évaluation et des Statistiques, et bientôt au sein du Health Data Hub.Les deux chapitres suivants se concentrent sur la détection d'effets indésirables médicamenteux (EIM) à partir de données du SNDS.@ Le chapitre 2 élabore ConvSCCS, un modèle basé sur des processus de Poisson et des techniques de régularisation. Une convolution entre des fonctions étagées et des évènements longitudinaux permet l'estimation de courbes de risque longitudinales facilement interprétables. Ce modèle ré-identifie correctement une association connue entre un anti-diabétique et le cancer de la vessie à partir d'évènements de remboursement de médicaments et de diagnostiques.ConvSCCS est ensuite appliqué à la détection d'association entre l'utilisation d'anxiolytiques, d'hypnotiques, d'antidépresseurs et de neuroleptiques et le risque de fractures chez les personnes âgées (Chapitre 3). Cette étude révèle des structures temporelles inédites ainsi que des biais spécifiques au SNDS.Enfin, le chapitre 4 s'intéresse à la construction de représentations génériques de parcours de soins. De nombreuses expériences y évaluent plusieurs types de modèles d'attention et de stratégies de pré-entrainement. Bien que les résultats ne soient pas encore satisfaisants, ce travail ouvre des pistes de recherche intéressantes.