Thèse soutenue

Apprentissage par renforcement basé sur un modèle ou sans modèle dans la gestion quantitative des actifs

FR  |  
EN
Auteur / Autrice : David Saltiel
Direction : Sébastien VerelÉric Benhamou
Type : Thèse de doctorat
Discipline(s) : Sciences et Technologies de l'information et de la Communication. Informatique et applications
Date : Soutenance le 07/12/2022
Etablissement(s) : Littoral
Ecole(s) doctorale(s) : École doctorale Sciences, technologie et santé (Amiens)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais) - Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais)
Entreprise : AI Square Connect
Jury : Président / Présidente : Laetitia Jourdan
Examinateurs / Examinatrices : Jonathan Weber, Emmanuel Lepinette, Philippe Preux, Nicole El Karoui
Rapporteur / Rapporteuse : Jonathan Weber, Emmanuel Lepinette

Résumé

FR  |  
EN

La promesse de l'apprentissage automatique est d'apprendre des règles à partir de données brutes sans aucune règle prédéfinie. Ainsi, la machine apprend et développe une forme d'intelligence en identifiant elle-même ces règles, s'appuyant uniquement sur des données. Les limites de ce nouveau paradigme sont que l'ordinateur peut boucler indéfiniment étant donné un nombre infini de règles et que les règles trouvées ne continuent pas dans le temps. Ceci est particulièrement important en gestion d'actifs quantitative qui vise à trouver des règles et des modèles sur les marchés financiers connus pour changer de comportement au fil du temps. Dans cette thèse, nous nous posons la question si l'apprentissage automatique doit s'appliquer avec ou sans modèles en gestion quantitative d'actifs. Plutôt que de soutenir l'une ou l'autre thèse, nous examinons tour à tour les deux approches. Nous montrons dans un premier temps que l'apprentissage automatique permet d'améliorer l'efficacité de modèles en sélectionnant les décisions à retenir. Nous montrons ensuite que l'apprentissage automatique est aussi capable d'apprendre des règles directement à partir des données par apprentissage par renforcement profond. Nous prouvons que cette approche généralise les méthodes traditionnelles d'optimisation de portefeuille, supprimant les limites de l'optimisation convexe et permettant des décisions plus sophistiquées au-delà du cadre moyenne et variance. Nous étudions les similitudes entre apprentissage supervisé et apprentissage par renforcement (RL) et montrons que la méthode de stratégie de gradient en RL s'analyse comme une méthode d'apprentissage supervisé avec des étiquettes données par les récompenses et une fonction de perte spécifiée par l'entropie croisée. Nous concluons la thèse par une analyse Bayésienne de la méthode CMAES et l'utilisation des valeurs de Shapley pour mieux comprendre le processus de décision du modèle d'apprentissage automatique.