Thèse soutenue

Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ?

FR  |  
EN
Auteur / Autrice : Eric Benhamou
Direction : Jamal AtifRida Laraki
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 02/10/2023
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris) - Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision / LAMSADE
établissement opérateur d'inscription : Université Paris Dauphine-PSL (1968-....)
Jury : Président / Présidente : Nicole El Karoui
Examinateurs / Examinatrices : Jamal Atif, Rida Laraki, Nicole El Karoui, Damien Challet, Rahul Savani, Jérôme Busca, Clémence Alasseur, Evgenia Passari
Rapporteur / Rapporteuse : Damien Challet, Rahul Savani

Résumé

FR  |  
EN

Les modèles développés en théorie du portefeuille reposent principalement sur des principes statistiques et économiques. A la base, il y a un modèle. De celui-ci, en supposant les marchés financiers rationnels et sans arbitrage, on en déduit des relations. Ainsi si on part du principe de représentation du risque par ratio de Sharpe, on aboutit au portefeuille de Markowitz. Ces principes reposent sur des biais cognitifs en termes de risque (risque réduit à la variance) et sur des limitations en termes d'optimisation (optimisation quadratique). Si on souhaite s'en affranchir et appliquer des principes d'apprentissage automatique aux marchés financiers, on n'a plus besoin de faire de choix de modèle. On cherche simplement à trouver des relations entre les données sans à priori. Dans cette thèse, nous examinons la question centrale de savoir si l'apprentissage par renforcement profond (DRL) peut fournir de nouvelles méthodes d'allocation de portefeuille. Nous soutenons que le DRL offre de nouvelles méthodes reliant directement états et action et sont donc capables de s'adapter dynamiquement à un environnement changeant plus rapidement. Nous commençons par rappeler les fondements du DRL avant de revoir la question de l'allocation de portefeuille. Ceci nous permet de formuler les questions posées et adressées par cette thèse, à savoir comment utiliser des informations supplémentaires par rapport aux deux premiers moments des actifs du portefeuille et comment valider que cette approche se généralise en dehors de la période d'apprentissage. Ces travaux adressent la question de l’utilisation pratique du DRL sur données non stationnaires et fortement bruitées. Nous appliquons le DRL au cas d'allocation multi-actifs afin de cerner les points clefs de l'approche. Nous montrons empiriquement que le DRL permet de dépasser l'état de l'art des méthodes d’allocation de portefeuille et de mieux s'adapter aux conditions de marché. Le choix de l'architecture par réseaux de convolutions capture mieux la dépendance entre les données de marché et s'adapte à des changements de situation comme la crise du Covid. Nous étendons l'usage du DRL à un problème de sélection de modèles quantitatifs de ciblage de volatilité, développant ainsi une approche dite à base de modèles. Nous expliquons ensuite pourquoi l'approche DRL généralise les approches quantitatives classiques de théorie du portefeuille en étendant le problème d'optimisation à un problème de contrôle optimal multi périodes. Nous montrons que les méthodes DRL réalisent des réductions de variance et analysons le cas particulier de la méthode acteur critique en l'interprétant comme la résolution d'un problème de simulation de Monte Carlo par variable de contrôle optimal. Nous étudions aussi les similitudes entre l'apprentissage par renforcement et l'apprentissage supervisé. Nous exhibons notamment que l'apprentissage par renforcement par descente de gradient est en fait un apprentissage supervisé avec une fonction de perte d'entropie croisée et des labels égaux aux récompenses optimales. Ce résultat bien que théorique en raison de l'impossibilité de connaitre à l'avance les récompenses optimales établit un lien profond entre les deux méthodes d'apprentissage. Nous terminons cette thèse sur l'analyse de la méthode d'apprentissage des hyperparamètres par adaptation de la matrice de covariance et stratégie évolutionnaire. Grace aux lois de Wishart et Wishart inverse, conjuguées au sens Bayesien de la normale multivariée, nous établissons des formules similaires à celles trouvées empiriquement dans l'algorithme CMAES. Ceci démontre que CMAES est de façon cachée une optimisation Bayesienne par loi normale multivariée et loi conjuguée dont l'objectif de modélisation est la distribution de l'optimum. Nous concluons cette thèse en résumant nos contributions et présentons des développements futurs, que ce soit par des prolongements naturels ou des questions nouvelles que cette thèse suscite.