Thèse en cours

Apprentissage par renforcement sous risque de ruine

FR  |  
EN
Auteur / Autrice : Thibault Roux
Direction : Gauthier Picard
Type : Projet de thèse
Discipline(s) : Informatique et Télécommunications
Date : Inscription en doctorat le 01/05/2024
Etablissement(s) : Toulouse, ISAE
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications
Partenaire(s) de recherche : Laboratoire : ISAE-ONERA MOIS MOdélisation et Ingénierie des Systèmes
Equipe de recherche : ONERA/DTIS/MITT - Département Traitement de l'Information et Systèmes

Résumé

FR  |  
EN

Cette thèse s'intéresse à la classe de problèmes appelée « Survival RL », qui peut être considérée comme la version multi-états des « Survival MAB » [Perotto 2019, 2021, 2022]. Dans le problème étudié, l'agent, sans connaissance préalable des fonctions de récompense et de transition d'état, vise à apprendre une politique optimale contrainte par un budget. Le budget représente les ressources de l'agent. Il évolue dans le temps avec les récompenses reçues, et il doit rester positif tout au long du processus (sinon c'est la ruine et la conséquente désintégration du système). Les récompenses peuvent être positives ou négatives selon l'état du système et l'action choisie. L'objectif est donc de trouver un bon compromis entre exploration (i.e. agir pour apprendre de nouvelles choses), exploitation (i.e. agir de manière optimale en fonction de ce qui est déjà connu), et sécurité (i.e. gérer le budget), cherchant ainsi à apprendre à maximiser les récompenses au fil du temps de façon efficiente, mais tout en minimisant le risque de ruine. Ainsi, à partir des résultats préliminaires déjà maitrisés par l'équipe SYD du DTIS à l'ONERA, l'objectif de cette thèse sera celui de (a) consolider et généraliser ces résultats en ce qui concerne le modèle de bandits, et (b) étendre ces résultats à l'apprentissage par renforcement, dans un premier temps en cherchant à modifier les algorithmes classiques, pour les MDPs, et à terme (c) introduire la notion de survie dans des algorithmes récents qui se basent sur le Deep Reinforcement Learning. Finalement, d'autres pistes peuvent être aussi envisagées, telle la prise en compte d'une observabilité partielle de l'environnement, la représentation factorisée des états, et l'introduction de plusieurs variables de survie budgétisées, constituant un problème d'optimisation multicritère et multi-contraintes.