Apprentissage par renforcement robuste : théorie et pratique
Auteur / Autrice : | Pierre Clavier |
Direction : | Erwan Le pennec, Stéphanie Allassonnière |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 20/11/2024 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard |
Partenaire(s) de recherche : | Laboratoire : CMAP - Centre de Mathématiques appliquées - Centre de Mathématiques Appliquées de l'Ecole polytechnique / CMAP - Health data- and model- driven approaches for knowledge acquisition (Paris ; 2025-....) - Health data-and model-driven approaches for Knowledge Acquisition / HeKA | U1346 |
Jury : | Président / Présidente : Rémi Munos |
Examinateurs / Examinatrices : Erwan Le pennec, Stéphanie Allassonnière, Aurélien Garivier, Ana Bušić, Éric Moulines, Michal Valko, Shie Mannor | |
Rapporteurs / Rapporteuses : Aurélien Garivier, Ana Bušić |
Résumé
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage automatique qui aborde la question de la prise de décision séquentielle. Dans ce paradigme, l'algorithme, désigné comme un agent, réagit à des interactions avec un environnement. À chaque interaction, l'agent effectue une action dans l'environnement, observe un nouvel état de l'environnement et reçoit une récompense en conséquence. L'objectif de l'agent est d'optimiser une récompense cumulative, qui est définie par l'utilisateur pour s'aligner sur la tâche spécifique à accomplir dans l'environnement. La théorie du processus décisionnel de Markov (MDP) est utilisée pour formaliser ce concept. Cependant, en cas de mauvaise spécification du modèle ou d'erreur dans la fonction de transition de l'environnent ou de la récompense, les performances du RL peuvent diminuer rapidement. Pour résoudre ce problème, le concept de MDP robustes a émergé, l'objectif étant d'identifier la politique optimale sous l'hypothèse que le noyau de transition appartient à un ensemble d'incertitude. Cette thèse présente une étude théorique de la complexité d'échantillonnage des MDP robustes, ou de la quantité de données nécessaires pour atteindre une erreur arbitrairement petite. Ces résultats démontrent que dans certains cas, cette complexité peut être inférieure à celle des MDP classiques, ce qui constitue une voie prometteuse pour concevoir de nouveaux algorithmes efficaces sur le plan de l'échantillonnage. La thèse se poursuit par des propositions de nouveaux algorithmes RL robustes pour renforcer les performances de RL ayant des ensembles d'action continus. Notre méthode est basée sur les MDP averses aux risques et les jeux à somme nulle, dans lesquels l'adversaire peut être considéré comme un agent qui change l'environnement dans le temps. En conclusion, la dernière section présentera des nouvelles tâches pour l'évaluation des algorithmes RL robustes, qui manquent de références pour l'évaluation des performances.