Apprentissage par renforcement basé sur un modèle ou sans modèle dans la gestion quantitative des actifs
Auteur / Autrice : | David Saltiel |
Direction : | Sébastien Verel, Éric Benhamou |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et Technologies de l'information et de la Communication. Informatique et applications |
Date : | Soutenance le 07/12/2022 |
Etablissement(s) : | Littoral |
Ecole(s) doctorale(s) : | École doctorale Sciences, technologie et santé (Amiens) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais) - Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais) |
Entreprise : AI Square Connect | |
Jury : | Président / Présidente : Laetitia Jourdan |
Examinateurs / Examinatrices : Jonathan Weber, Emmanuel Lepinette, Philippe Preux, Nicole El Karoui | |
Rapporteur / Rapporteuse : Jonathan Weber, Emmanuel Lepinette |
Mots clés
Mots clés contrôlés
Résumé
La promesse de l'apprentissage automatique est d'apprendre des règles à partir de données brutes sans aucune règle prédéfinie. Ainsi, la machine apprend et développe une forme d'intelligence en identifiant elle-même ces règles, s'appuyant uniquement sur des données. Les limites de ce nouveau paradigme sont que l'ordinateur peut boucler indéfiniment étant donné un nombre infini de règles et que les règles trouvées ne continuent pas dans le temps. Ceci est particulièrement important en gestion d'actifs quantitative qui vise à trouver des règles et des modèles sur les marchés financiers connus pour changer de comportement au fil du temps. Dans cette thèse, nous nous posons la question si l'apprentissage automatique doit s'appliquer avec ou sans modèles en gestion quantitative d'actifs. Plutôt que de soutenir l'une ou l'autre thèse, nous examinons tour à tour les deux approches. Nous montrons dans un premier temps que l'apprentissage automatique permet d'améliorer l'efficacité de modèles en sélectionnant les décisions à retenir. Nous montrons ensuite que l'apprentissage automatique est aussi capable d'apprendre des règles directement à partir des données par apprentissage par renforcement profond. Nous prouvons que cette approche généralise les méthodes traditionnelles d'optimisation de portefeuille, supprimant les limites de l'optimisation convexe et permettant des décisions plus sophistiquées au-delà du cadre moyenne et variance. Nous étudions les similitudes entre apprentissage supervisé et apprentissage par renforcement (RL) et montrons que la méthode de stratégie de gradient en RL s'analyse comme une méthode d'apprentissage supervisé avec des étiquettes données par les récompenses et une fonction de perte spécifiée par l'entropie croisée. Nous concluons la thèse par une analyse Bayésienne de la méthode CMAES et l'utilisation des valeurs de Shapley pour mieux comprendre le processus de décision du modèle d'apprentissage automatique.