Thèse soutenue

Modélisation et simulation de large processus décisionnels markoviens : Application aux effets de leviers pour les processus d’optimisation des portefeuilles financiers

FR  |  
EN
Auteur / Autrice : Emanuele Barbieri
Direction : Laurent CapocchiJean-François Santucci
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/03/2023
Etablissement(s) : Corte
Ecole(s) doctorale(s) : École doctorale Environnement et sociéte (Corte ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Université de Corse (1975-....). UMR CNRS 6134 "Sciences pour l'Environnement" (SPE)
Jury : Examinateurs / Examinatrices : Jean-François Santucci, Bernard P. Zeigler, Claudia Frydman, Frédéric Prévot
Rapporteur / Rapporteuse : Bernard P. Zeigler, Claudia Frydman

Résumé

FR  |  
EN

Les modèles de processus de décision de Markov (MDP) sont largement utilisés dans de nombreux domaines de recherche pour modéliser les problèmes de prise de décision. Les MDP peuvent être facilement conçus par modélisation et simulation (M&S) à travers le formalisme de spécification de système à événements discrets (DEVS) grâce à ses aspects modulaires et hiérarchiques qui améliorent entre autre l’explicabilité des modèles. En particulier, la séparation entre l’agent et les composants de l’environnement impliqués dans l’algorithme d’apprentissage par renforcement (RL)traditionnel, tel que Q-Learning, est clairement formalisé pour améliorer l’observabilité et envisager l’intégration des composants de l’IA dans le processus de prise de décision. Notre modèle DEVS renforce également la confiance des décideurs en atténuant le risque de délégation aux machines dans les processus de prise de décision. A cet effet, l’objectif principal de ce travail est de fournir la possibilité de concevoir avec une plus grande explicabilité un système Markovien à l’aide d’unformalisme de M&S pour optimiser, par simulation, un processus de prise de décision. En outre, le travail implique une étude de cas basée sur la gestion des processus financiers, sa spécification entant que système RL basé sur MDP, et sa M&S avec le formalisme DEVS. L’environnement de M&S DEVSimPy est utilisé pour implémenter le système Agent-Environnement RL en tant que librairie DEVS-RL composée de modèles DEVS intéragissant par événements discrets pour mettre en oeuvre l’apprentissage. Le travail de recherche proposé dans cette thèse porte sur un cas concret de gestion de portefeuille d’indices boursiers. Notre modèle DEVS-RL permet de produire un effet de levier trois fois supérieur à certains des indices de marché naïfs parmi les plus importants au monde sur une période de trente ans et peut contribuer à aborder la théorie moderne du portefeuille avec une approche novatrice. Les résultats du modèle DEVS-RL sont confrontés en termes de compatibilité et combinés avec les algorithmes d’optimisation les plus populaires tels que Efficient FrontierSemivariance et les modèles basés sur les réseaux de neurones tels que LSTM.