Apprentissage par renforcement profond efficace pour le contrôle, l'exploration et la sûreté
Auteur / Autrice : | Yannis Flet-Berliac |
Direction : | Philippe Preux |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 06/10/2021 |
Etablissement(s) : | Université de Lille (2018-2021) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille - Centre de Recherche en Informatique- Signal et Automatique de Lille - UMR 9189 / CRIStAL |
Jury : | Président / Présidente : Luce Brotcorne |
Examinateurs / Examinatrices : Anders Jonsson, Joëlle Pineau, Adam White | |
Rapporteur / Rapporteuse : Ann Nowé, Bruno Scherrer |
Mots clés
Résumé
Un des défis majeurs de l'apprentissage par renforcement est d'explorer efficacement un environnement afin d'apprendre une politique optimale par une méthode à base d'essai-erreur. Pour y parvenir, l'agent doit être capable d'apprendre efficacement de ses expériences passées, ce qui lui permet d'estimer la performance de certaines actions par rapport à d'autres. En outre, une problématique évidente mais centrale est que ce qui n'est pas connu doit être exploré, et la nécessité d'explorer d'une manière sûre ajoute un autre niveau de difficulté au problème. Ce sont les principales questions que nous abordons dans cette thèse de doctorat. En déconstruisant la méthode acteur-critique et en développant des formulations alternatives du problème d'optimisation sous-jacent via la notion de variance, nous explorons comment les algorithmes d'apprentissage par renforcement profond peuvent résoudre plus efficacement les problèmes de contrôle continu, les environnements d'exploration difficiles et les tâches exposées au risque. La première partie de la thèse se concentre sur la composante du critique de l'approche acteur-critique, ou fonction de valeur, et sur la façon d'apprendre plus efficacement à contrôler les agents dans les domaines de contrôle continu par des utilisations distinctes de la variance dans les estimations de la fonction de valeur. La deuxième partie de la thèse s'intéresse à la composante acteur de l'approche acteur-critique, aussi appelée politique. Nous proposons l'introduction d'un troisième élément au problème d'optimisation que les agents résolvent, en introduisant un adversaire. L'adversaire est de même nature que l'agent RL mais il est entraîné à suggérer des actions qui imitent celles de l'acteur ou qui vont à l'encontre des contraintes de notre problème. Il est représenté par une certaine distribution de politique moyenne avec laquelle l'acteur doit différencier son comportement en maximisant sa divergence avec celle-ci, encourageant finalement l'acteur à mieux explorer dans les tâches où une exploration efficace constitue la difficulté majeure, ou à prendre des décisions de façon moins risquée.