Intégrer planification de mouvement et apprentissage par renforcement pour résoudre des problèmes difficiles d’exploration
Auteur / Autrice : | Guillaume Matheron |
Direction : | Olivier Sigaud, Nicolas Perrin-Gilbert |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 18/11/2020 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....) |
Jury : | Président / Présidente : Jean-Paul Laumond |
Examinateurs / Examinatrices : Véronique Perdereau | |
Rapporteur / Rapporteuse : Olivier Bernard Henri Buffet, Emmanuel Rachelson |
Mots clés
Résumé
Dans cette thèse, nous étudions les façons dont des techniques inspirées de la planification de mouvement peuvent accélérer la résolution de problèmes d'exploration difficile pour l'apprentissage par renforcement, sans sacrifier la généralisation ni les avantages de l'apprentissage sans modèle. Nous identifions une impasse qui peut advenir lors qu'on applique l'apprentissage par renforcement à des problèmes apparemment triviaux mais qui ont une récompense éparse. De plus, nous contribuons un algorithme d'exploration inspiré de la planification de mouvement mais conçu spécifiquement pour des environnements d'apprentissage, ainsi qu'un cadre pour utiliser les données collectées pour entraîner un algorithme d'apprentissage par renforcement dans des scénarios auparavant trop complexes.