Thèse soutenue

Représentations et inférence à partir de données de santé temporelles collectées en routine

FR  |  
EN
Auteur / Autrice : Matthieu Doutreligne
Direction : Gaël VaroquauxClaire MorgandPierre-Alain Jachiet
Type : Thèse de doctorat
Discipline(s) : Informatique mathématique
Date : Soutenance le 20/11/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Pierre Zweigenbaum
Examinateurs / Examinatrices : Florence Tubach, Peter Szolovits, Marzyeh Ghassemi, Etienne Audureau, Emmanuel Chazard
Rapporteurs / Rapporteuses : Florence Tubach, Peter Szolovits

Résumé

FR  |  
EN

Les bases de données de vie réelle sont de plus en plus accessibles, exhaustives, avec des détails temporels précis. Contrairement aux données utilisées dans la recherche clinique traditionnelle, elles capturent l'organisation routinière des soins. Ces données de soins quotidiens ouvrent la porte à de nouvelles questions de recherche, notamment en ce qui concerne la qualité des soins, l'efficacité des interventions après leur mise sur le marché, l'hétérogénéité de leurs bénéfices dans les populations mal desservies ou le développement de traitements personnalisés. D'un autre côté, la complexité et la nature à grande échelle de ces bases de données posent un certain nombre de défis pour leur utilisation efficace. Pour remédier à ces problèmes, les économètres et les épidémiologistes ont récemment proposé l'utilisation de modèles flexibles combinant l'inférence causale et l'apprentissage automatique en grande dimension. Dans un premier temps, nous illustrons par trois exemples la tension actuelle entre ces nouvelles sources de données, l'apprentissage automatique et des problématiques modernes de santé publique. Ces exemples motivent notre principale question de recherche : Comment des modèles flexibles peuvent-ils aider à fournir un traitement approprié à chaque patient afin d'améliorer sa santé ? Afin de mieux comprendre les infrastructures modernes de collecte et d'analyse des dossiers patients informatisés (DPI), nous faisons la synthèse d'entretiens semi-structurés menés dans le cadre d'une étude de cas nationale portant sur les entrepôts de données cliniques des 32 hôpitaux régionaux et universitaires français. Reconnaissant la difficulté d'accéder à des échantillons de grande taille et à la puissance de calcul pour développer des modèles prédictifs généralisables, nous étudions un gradient de complexité dans les représentations et les algorithmes prédictifs sur DPI. En se tournant vers le cadre causal, nous détaillons ensuite les éléments clés nécessaires pour estimer de manière robuste l'effet du traitement à partir de données de DPI variant dans le temps. Nous documentons l'impact de différents choix méthodologiques pour l'étude de l'effet de l'albumine sur la mortalité dans des cas de septicémie avec la base de données MIMIC-IV (Medical Information Mart for Intensive Care). Dans des problèmes à grande dimension, la sélection d'hyperparamètres pour les modèles causaux est cruciale pour éviter le sous-apprentissage ou le sur-apprentissage. Pour une simulation et trois ensembles de données semi-simulées, nous montrons que le risque R doublement robuste surpasse d'autres risques causaux existants.