Contributions à l'apprentissage par renforcement hors ligne avec prise en compte du risque : étude sur l'augmentation des données, sur la sélection des politiques et sur l'explicabilité
Auteur / Autrice : | Giorgio Angelotti |
Direction : | Caroline Ponzoni Carvalho Chanel |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et Robotique |
Date : | Soutenance le 12/06/2023 |
Etablissement(s) : | Toulouse, ISAE |
Ecole(s) doctorale(s) : | École doctorale Systèmes (Toulouse ; 1999-....) |
Partenaire(s) de recherche : | Equipe de recherche : Equipe d'accueil doctoral DECIsion, Supervision et Interaction pour l'Opération de systèmes complexes (Toulouse, Haute-Garonne) |
Laboratoire : Institut supérieur de l'aéronautique et de l'espace (Toulouse, Haute-Garonne). Département conception et conduite des véhicules aéronautiques et spatiaux | |
Jury : | Président / Présidente : Régis Sabbadin |
Examinateurs / Examinatrices : Caroline Ponzoni Carvalho Chanel, Régis Sabbadin, Marek Petrik, Bruno Zanuttini, Emmanuel Rachelson, Vincent René Léon Thomas, Nicolas Drougard, Rémi Munos | |
Rapporteur / Rapporteuse : Marek Petrik, Bruno Zanuttini |
Résumé
Dans le domaine de l'apprentissage par renforcement hors ligne, l'objectif est d'apprendre une politique de décision hors ligne, c'est-à-dire sur la base d'un lot d'expériences collectées précédemment et sans interaction supplémentaire, de préférence d'une manière efficace en termes de données et sensible au risque. Cette thèse présente plusieurs techniques pour atteindre cet objectif, en mettant l'accent sur les méthodes basées sur des modèles : des paradigmes qui infèrent d'abord un modèle comportemental pour le problème de prise de décision séquentielle et le résolvent ensuite en prenant en compte l'incertitude de l'estimation du modèle. Les contributions présentées comprennent une méthode pour augmenter un ensemble de données d'échantillons en détectant les symétries dans la dynamique du système, une méthode pour effectuer une sélection de politique sensible au risque hors ligne appelée Exploitation vs Caution (EvC) en recourant au cadre du processus de décision de Markov bayésien, et un paradigme pour l'explicabilité dans les systèmes coopératifs multi-agents en utilisant l'analyse de Myerson. De plus, nous discutons des perspectives d'application de l'approche EvC pour obtenir une politique de contrôle d'interaction adaptative dans un scénario homme-robot. En effet, en prenant les précautions nécessaires, nous avons adapté l'algorithme EvC pour la sélection de politiques sensibles au risque afin de l'appliquer au ISAE Robot Firefighter Game, qui implique l'optimisation de politiques adaptatives pour contrôler l'interaction entre un robot pompier et un pompier humain dans un scénario de preuve de concept. Dans l'ensemble, les contributions de cette thèse démontrent le potentiel des techniques présentées pour améliorer de manière significative la performance des algorithmes d'apprentissage par renforcement hors ligne et pour être appliquées dans une variété de contextes du monde réel, y compris l'interaction homme-robot.