Thèse soutenue

Apprentissage par renforcement robuste : théorie et pratique

FR  |  
EN
Auteur / Autrice : Pierre Clavier
Direction : Erwan Le pennecStéphanie Allassonnière
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 20/11/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : CMAP - Centre de Mathématiques appliquées - Centre de Mathématiques Appliquées de l'Ecole polytechnique / CMAP - Health data- and model- driven approaches for knowledge acquisition (Paris ; 2025-....) - Health data-and model-driven approaches for Knowledge Acquisition / HeKA | U1346
Jury : Président / Présidente : Rémi Munos
Examinateurs / Examinatrices : Erwan Le pennec, Stéphanie Allassonnière, Aurélien Garivier, Ana Bušić, Éric Moulines, Michal Valko, Shie Mannor
Rapporteurs / Rapporteuses : Aurélien Garivier, Ana Bušić

Résumé

FR  |  
EN

L'apprentissage par renforcement (RL) est un paradigme d'apprentissage automatique qui aborde la question de la prise de décision séquentielle. Dans ce paradigme, l'algorithme, désigné comme un agent, réagit à des interactions avec un environnement. À chaque interaction, l'agent effectue une action dans l'environnement, observe un nouvel état de l'environnement et reçoit une récompense en conséquence. L'objectif de l'agent est d'optimiser une récompense cumulative, qui est définie par l'utilisateur pour s'aligner sur la tâche spécifique à accomplir dans l'environnement. La théorie du processus décisionnel de Markov (MDP) est utilisée pour formaliser ce concept. Cependant, en cas de mauvaise spécification du modèle ou d'erreur dans la fonction de transition de l'environnent ou de la récompense, les performances du RL peuvent diminuer rapidement. Pour résoudre ce problème, le concept de MDP robustes a émergé, l'objectif étant d'identifier la politique optimale sous l'hypothèse que le noyau de transition appartient à un ensemble d'incertitude. Cette thèse présente une étude théorique de la complexité d'échantillonnage des MDP robustes, ou de la quantité de données nécessaires pour atteindre une erreur arbitrairement petite. Ces résultats démontrent que dans certains cas, cette complexité peut être inférieure à celle des MDP classiques, ce qui constitue une voie prometteuse pour concevoir de nouveaux algorithmes efficaces sur le plan de l'échantillonnage. La thèse se poursuit par des propositions de nouveaux algorithmes RL robustes pour renforcer les performances de RL ayant des ensembles d'action continus. Notre méthode est basée sur les MDP averses aux risques et les jeux à somme nulle, dans lesquels l'adversaire peut être considéré comme un agent qui change l'environnement dans le temps. En conclusion, la dernière section présentera des nouvelles tâches pour l'évaluation des algorithmes RL robustes, qui manquent de références pour l'évaluation des performances.