Epidémiologie profonde : méthodes d'apprentissage profond et leurs applications sur des bases de données médico-administratives

par Louis Falissard

Projet de thèse en Santé publique - biostatistiques

Sous la direction de Grégoire Rey.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Santé Publique , en partenariat avec Centre d'épidémiologie sur les causes médicales de décès (laboratoire) , Faculté de médecine (référent) et de Université Paris-Saclay. Graduate School Santé publique (2020-....) (graduate school) depuis le 01-10-2018 .


  • Résumé

    Le Système National des Données de Santé (SNDS) va être exploité de façon croissante pour des problématiques de recherche en santé publique. Les traitements sur ces données présentent néanmoins toujours des difficultés spécifiques, du fait de leur volumétrie et de leur complexité. Parallèlement se développent des méthodes adaptées au traitement de ce type de données, parmi lesquelles figure l'apprentissage profond dont la souplesse du paradigme d'apprentissage laisse entrevoir une application possible à des problématiques de santé publique, en terme de prédiction et, au moins par le biais des calculs de score de propension, d'inférence causale. L'étude proposée aura pour objectif d'optimiser l'application de l'apprentissage profond aux problématiques des données du SNDS à des fins de recherche d'algorithmes prédictifs de la mortalité et de la morbidité, de dégager des pistes permettant de l'utiliser pour mesurer des associations causales, et d'évaluer dans quelle mesure ces méthodes présentent un caractère d'optimalité en comparaison d'autres approches. Les méthodes de calibration et d'optimisation des réseaux de neurones, en visant à minimiser la dimension des variables d'entrée seront appliquées et testées, puis des techniques d'inférence causale, comme l'utilisation du score de propension ou à partir de modèles générateurs, seront mises en œuvre. Enfin, les performances de ces outils seront comparées à des méthodes de type machine à vecteur de support ou des méthodes ensemblistes. Les données traitées seront simulées pour valider la précision d'estimation d'effets causaux ou pour calibrer les modèles, puis mis en œuvre sur données réelles avec pour perspective de produire des indicateurs de mortalité post-hospitalière les plus représentatifs de la qualité des soins.

  • Titre traduit

    Deep learning methods in epidemiology and their applications to electronic health databases


  • Résumé

    The National Health Data System (SNDS) will be used increasingly for public health research issues. The treatments on these data nevertheless always present specific difficulties, because of their volumetry and their complexity. At the same time, methods are developed that are adapted to the processing of this type of data, among which is deep learning, the flexibility of the learning paradigm suggesting a possible application to public health problems, in terms of prediction and, at least through propensity score calculations, to causal inference. The objective of the proposed study is to optimize the application of deep learning to the problematics of the SNDS data in order to search for predictive algorithms for mortality and morbidity, to identify ways for using it. to measure causal associations, and to evaluate the extent to which these methods are optimal compared to other approaches. Methods of calibration and optimization of neural networks, aiming to minimize the size of the input variables will be applied and tested, then causal inference techniques, such as the use of propensity score or from generating models, will be implemented. Finally, the performance of these tools will be compared to support vector machine methods or ensemble methods. The processed data will be simulated to validate the accuracy of the estimation of causal effects or to calibrate the models, then implemented on real data with the aim of producing post-hospital mortality indicators most representative of the quality of care.