Apports des méthodes de machine learning et de deep learning dans la prédiction des durées de séjours hospitalières et des ré-hospitalisations
Auteur / Autrice : | Franck Jaotombo |
Direction : | Laurent Boyer, Badih Ghattas |
Type : | Thèse de doctorat |
Discipline(s) : | Biologie santé. Recherche clinique et santé publique |
Date : | Soutenance le 08/12/2022 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École Doctorale Sciences de la Vie et de la Santé (Marseille) |
Partenaire(s) de recherche : | Laboratoire : Centre d'études et de recherche sur les services de santé et la qualité de vie (Marseille) |
Jury : | Président / Présidente : Cyrille Colin |
Examinateurs / Examinatrices : Patrice François | |
Rapporteur / Rapporteuse : Marianne Clausel, Antoine Duclos |
Résumé
Cette thèse traite de la prédiction des durées de séjours hospitalières et de réhospitalisations à partir de méthodes de Machine Learning et de Deep Learning appliquées à l’ensemble des données hospitalières exploitables (structurées et non structurées), largement sous-utilisées à l’heure actuelle. La prédiction des durées de séjour hospitalières est un enjeu organisationnel important pour améliorer l’accès, la qualité et l’efficience des soins. La prévention des réhospitalisations constitue un enjeu important pour la qualité et la sécurité des prises en charge du patient hospitalisé ; les réhospitalisations ont un impact négatif sur la qualité de vie des patients et de leurs proches en plus des risques iatrogènes inhérents à toute hospitalisation, et alourdissent le coût de la prise en charge. La démarche suivie au cours de cette thèse a consisté à utiliser des méthodes de Machine Learning et de Deep Learning pour rechercher le meilleur compromis possible entre performance et interprétabilité. Nous démontrons que les données structurées bien choisies permettent d’obtenir une très bonne performance (ROC AUC variant de 0.789 à 0.972 sur nos données), avec une interprétabilité satisfaisante mais peu spécifique. Les données textuelles seules ont une performance plus que satisfaisante (ROC AUC variant de 0.723 à 0.848), mais avec une interprétabilité beaucoup plus spécifique et détaillée sur les séjours à risque. Le meilleur compromis entre performance et interprétabilité est donné par les données mixtes, avec d’un côté une très bonne performance (ROC AUC variant entre 0.938 et 0.966) et simultanément des descriptions très détaillées des séjours à risques.