Thèse soutenue

Inférence causale à partir de données hétérogènes avec données manquantes : application à la prise en charge de patients polytraumatisés graves

FR  |  
EN
Auteur / Autrice : Imke Mayer
Direction : Jean-Pierre NadalJulie Josse
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 20/09/2021
Etablissement(s) : Paris, EHESS
Ecole(s) doctorale(s) : École doctorale de l'École des hautes études en sciences sociales
Jury : Président / Présidente : Raphaël Porcher
Examinateurs / Examinatrices : Raphaël Porcher, James Carpenter, Romain Pirracchio, Tobias Gauss, Fabrizia Mealli, Elizabeth A. Stuart
Rapporteurs / Rapporteuses : James Carpenter, Romain Pirracchio

Résumé

FR  |  
EN

Le problème des données manquantes est inévitable dans la pratique statistique, la plupart des méthodes d'analyse ne peuvent être mises en œuvre directement à partir de données incomplètes. Ce domaine est en pleine expansion au sein de la communauté statistique, car le problème des valeurs manquantes est exacerbé par la multiplicité des données collectées, souvent à partir de diverses sources d'information. Il est donc crucial d'identifier des méthodologies efficaces pour effectuer des analyses (causales) en présence de données incomplètes, et de savoir quel degré de confiance accorder aux résultats obtenus à partir de données incomplètes. L'objectif de cette thèse est de proposer de nouvelles méthodes dans le contexte de l'inférence causale, adaptées à certains des défis des processus modernes de collecte de données, à savoir les données manquantes et l'hétérogénéité ; et de développer des méthodologies pratiques adaptées pour évaluer des questions d'intérêt médical et d'apporter un support à la prise de décision dans un contexte de contraintes de temps et de ressources, comme c'est le cas par exemple dans la prise en charge de patients polytraumatisés graves. Nous adoptons l'approche de l'inférence causale pour relever ces défis. La théorie et les méthodologies d'estimation d'effets de traitement sont bien comprises dans le cas d'études expérimentales, c'est-à-dire dans les essais contrôlés randomisés, l'``étalon-or'' pour évaluer des effets de traitement ou d'intervention. Cependant, il existe toujours un manque de résultats et de méthodologies d'inférence causale largement appliqués pour les études observationnelles. Cela peut s'expliquer en partie par le contraste qui subsiste entre les résultats existants et leur applicabilité à des problèmes concrets et à des données provenant de divers domaines. Un facteur clé qui peut expliquer cette sous-représentation des études observationnelles dans les analyses causales est l'écart entre le cadre statistique classique et les données collectées qui ne correspondent pas toujours au premier. Les contributions de cette thèse se composent de trois parties principales. Dans la première partie, nous considérons le cas des valeurs manquantes dans les études observationnelles et leur impact sur les analyses causales, à savoir les problèmes d'identifiabilité et d'estimation. Nous proposons d'intégrer explicitement les valeurs manquantes dans le cadre classique d'inférence causale, permettant de définir des hypothèses d'identifiabilité d'effets de traitement en présence de valeurs manquantes et nous dérivons une approche d'estimation générique et flexible s'appuyant sur les résultats récents des statistiques semi-paramétriques. Dans la deuxième partie, nous considérons un autre ensemble de problèmes, qui se posent dans le cas de la disponibilité simultanée d'études expérimentales et observationnelles pour la même question d'intérêt ; la question de savoir comment relier ces études et comment tirer parti de leurs avantages respectifs et surmonter leurs inconvénients est un sujet de recherche étudié par divers domaines, des sciences sociales et économiques aux sciences biomédicales et pharmaceutiques, et elle intéresse également la communauté de l'apprentissage machine. Nous passons en revue l'état de l’art sur la question de savoir comment généraliser les résultats des études expérimentales à des populations plus pertinentes. Nous abordons ensuite la question de savoir comment ces résultats et méthodes sont affectés par la présence de valeurs manquantes dans l'une ou l'autre des sources de données et nous proposons des stratégies d'estimation. Enfin, un objectif important de cette thèse étant son application à un contexte médical et à d'autres domaines pertinents, la troisième partie de ce manuscrit se concentre sur l'application concrète et la communication de ces méthodologies et sur leur mise en œuvre, rendue accessible à un large public avec des implémentations et tutoriels open-source.