Thèse soutenue

Le développement et l'analyse théorique des algorithmes de contrôle optimal et d'apprentissage par renforcement

FR  |  
EN
Auteur / Autrice : Maksim Kaledin
Direction : Éric MoulinesDenis Belomestny
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 25/01/2023
Etablissement(s) : Institut polytechnique de Paris en cotutelle avec Vysšaja škola èkonomiki (Moscou)
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne) - Centre de Mathématiques Appliquées - Ecole Polytechnique / CMAP
Jury : Président / Présidente : Peter Tankov
Examinateurs / Examinatrices : Éric Moulines, Denis Belomestny, Alexander Goldenshluger, Tony Lelièvre, Alexey Naumov, Gersende Fort
Rapporteurs / Rapporteuses : Alexander Goldenshluger, Tony Lelièvre

Résumé

FR  |  
EN

Dans la thèse, nous abordons les problèmes de l'arrêt optimal et l’apprentissage dans les processus décisionnel de Markov utilisés en apprentissage par renforcement (Reinforcement Learning, RL). Dans la première direction, nous dérivons des estimations de complexité pour l'algorithme appelé Weighted Stochastic Mesh (WSM) et donnons une nouvelle méthodologie pour le compairison de la complexité des algorithmes d'arrêt optimale avec l'indice de semi-tractabilité. Nous montrons que WSM est optimal par rapport à ce critère, quand les méthodes de régression couramment utilisées ne sont pas très bien.Pour l’apprentissage par renforcement nous donnons une analyse de convergence non asymptotique d'un schéma d'approximation stochastique à deux échelles de temps – Gradient TD- sous des hypothèses de bruit « incrément de martingale » - buffer replay - et de de Markov. Nous obtenons des bornes supérieures qui sont optimales en taux en construisant une méthode de développement de l'erreur, qui permet d’obtenir un contrôle précis des restes.Nous présentons aussi un nouvel algorithme de réduction de variance dans les schémas de « policy-gradient ». L'approche proposée basée sur la minimisation d’un estimateur de la variance empirique des récompeneses pondérées. Nous avons établi théoriquement et pratiquement un gain par rapport à la méthode classique d'acteur-critique (A2C).