Thèse en cours

Analyse mathématique de l'agrégation d'algorithmes de RL
FR  |  
EN
Auteur / Autrice : Chiara Mignacco
Direction : Gilles Stoltz
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/10/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....)
Equipe de recherche : Probabilités et statistiques (LMO)
référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

Le projet vise à compléter l'analyse mathématique des algorithmes de reinforcement learning [RL], dans des cadres ou pour des méthodes qui n'ont été que peu regardés dans la littérature. Le projet est centré autour de deux thèmes. Premièrement, nous voulons étudier les algorithmes de RL dans le cadre d'environnements seulement partiellement observés. Comme ce cadre a été peu exploré, il s'agit tout d'abord de définir rigoureusement la classe de stratégies à laquelle on s'intéressera, comme : les stratégies « simples » pouvant être apprises, ou les conditions et le prix de la robustesse ou de l'optimalité. Ce cadre d'environnement partiellement observé s'applique notamment en finance quantitative, pour la gestion des réseaux d'électricité renouvable, ou celle des centres de données. Ce sujet devrait constituer la première moitié de la thèse, une sorte d'échauffement avant le second sujet, qui est un sujet plus risqué et plus difficile : l'agrégation d'algorithmes de RL --- inspirée par l'agrégation de stratégies de prévisions en apprentissage séquentiel. L'idée de fonder des (méta-)prévisions sur des ensembles de prévisions, ce qu'on appelle des stratégies d'ensemble, conduit en général à des prévisions plus sûres et plus efficaces. Le voeu est de construire une théorie d'agrégation séquentielle d'ensembles d'algorithmes de RL et de voir l'existence de garanties associées dans les cas simples. Des questions plus complexes se poseront ensuite, comme : comment combiner des sorties d'algorithmes de RL et gérer les changements d'états de l'environnement, notamment si chaque algorithme modélise l'environnement différemment ?