Thèse soutenue

Forêts causales et transfert par changement de modèle pour l'estimation d'effets de traitement hétérogènes

FR  |  
EN
Auteur / Autrice : Bérénice-Alexia Jocteur
Direction : Véronique Maume-DeschampsPierre Ribereau
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 03/07/2024
Etablissement(s) : Lyon 1
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Institut Camille Jordan (Rhône ; 2005-....)
Jury : Président / Présidente : Gabriela Ciuperca
Examinateurs / Examinatrices : Véronique Maume-Deschamps, Pierre Ribereau, Josselin Garnier, Antoine Chambaz, Nicolas Bousquet, Nicolas Brunel, Marianne Clausel
Rapporteurs / Rapporteuses : Josselin Garnier, Antoine Chambaz

Résumé

FR  |  
EN

Cette thèse a été réalisée dans le cadre d’un partenariat CIFRE entre l’Université Lyon 1 et Natixis. Elle a pour objectif de développer des méthodes d’apprentissage statistique permettant l’estimation d’effets causaux. Pour ce faire un modèle spécifique de forêt aléatoire a été développé et ses propriétés asymptotiques ont été étudiées. Puis des applications sur des données réelles ont été proposées, notamment sur une quantité d’intérêt pour la direction des risques de Natixis, mais aussi sur une problématique climatique. Enfin une méthode d’apprentissage par transfert sur la forêt précédemment introduite est proposée et des propriétés de convergence ainsi qu’une borne de généralisation sont établies. Le premier chapitre de cette thèse concerne la construction d’une forêt causale nommée HTERF (Heterogeneous Treatment Effect based Random Forest) qui permet d’estimer la quantité CATE (Conditionnal average treatment effect). Cet estimateur non paramétrique s’inscrit dans la lignée d’autres forêts causales telles que celle introduite par [Athey et al. 2019] nommée GRF pour Generalised Random Forest. La forêt GRF présente des qualités limitées en termes d’interprétabilité et le résultat de consistance et de normalité asymptotique est soumis à un jeu d’hypothèses assez fort. La forêt HTERF qui utilise un critère de partition dédié à l’évaluation des effets causaux permet de pallier ces limitations. D’une part de meilleurs résultats sont obtenus empiriquement sur des simulations que ce soit en termes de qualité de l’estimation de l’effet causal ou en termes d’interprétabilité du modèle. D’autre part un résultat théorique de convergence presque sûre de l’estimateur HTERF est obtenu avec un jeu d’hypothèses plus faibles que pour GRF, un résultat théorique d’interprétabilité est également obtenu. Une implémentation de HTERF en Julia a été créée avec le package CausalForest. Une présentation détaillée de ce package est disponible en appendice du Chapitre 2. Le second chapitre regroupe deux applications de HTERF sur des jeux de données réelles. Le premier exemple concerne le coût du risque de crédit, une quantité d’intérêt pour la gestion du risque de Natixis. Le backtesting des modèles obtenus est partiellement satisfaisant en termes d’erreur. Cependant les résultats en termes d’interprétabilité sont prometteurs au regard de l’expertise métier. Le second exemple porte sur le phénomène climatique ENSO (El Niño – Oscillation australe) et plus particulièrement sur l’impact de El Niño sur les précipitations dans l’est australien. Deux stations météorologiques ont été sélectionnées dans des régions différentes d’Australie. Les résultats sont convaincants pour la première station qui met bien en avant l’impact de El Niño et fait ressortir deux variables plus informatives. Pour la seconde station les données disponibles sont de moins bonne qualité et les résultats obtenus avec HTERF sont moins convaincants. Le troisième chapitre traite d’apprentissage par transfert dans le cas particulier du model shift, lorsque l’on veut estimer un effet causal. La méthode offset introduite par [Wang 2016], propose un algorithme de transfert dans le cadre de la régression, et une borne de généralisation est obtenue. Nous proposons une adaptation causale de cette méthode offset utilisant l’algorithme HTERF. Un résultat de consistance L1 est alors obtenu sous des hypothèses, en accord avec les conditions rencontrées en pratique. Une borne de généralisation est également obtenue, elle permet de décomposer cette erreur en un premier terme correspondant à l’erreur propre à HTERF et un second terme correspondant à l’erreur supplémentaire due à la méthode offset. Des simulations sur des jeux de données synthétiques et semi-synthétiques confirment le bon comportement empirique de cette méthode d’apprentissage par transfert sur les forêts causales.