Adaptation efficace des agents appris par renforcement : de l'exploration model-free aux modèles symboliques
Auteur / Autrice : | Pierre-Alexandre Kamienny |
Direction : | Sylvain Lamprier, Patrick Gallinari, Ludovic Denoyer |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 04/10/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : LIP6 (1997-....) |
Jury : | Président / Présidente : Olivier Sigaud |
Examinateurs / Examinatrices : Olivier Pietquin, Sara Silva | |
Rapporteur / Rapporteuse : Emmanuel Rachelson, David Filliat |
Résumé
L'apprentissage par renforcement (RL) est un ensemble de techniques utilisées pour former des agents autonomes à interagir avec des environnements de manière à maximiser leur récompense. Pour déployer avec succès ces agents dans des scénarios réels, il est crucial qu'ils puissent généraliser à des situations inconnues. Bien que les réseaux de neurones aient montré des résultats prometteurs en permettant aux agents d'interpoler des comportements souhaités, leurs limites en termes de généralisation au-delà de la distribution d'entraînement entraînent souvent des performances sous-optimales sur des données issue d'une distribution différente. Ces défis sont encore amplifiés dans les environnements de RL caractérisés par des situations non stationnaires et des changements constants de la distribution lors du déploiement. Cette thèse présente de nouvelles stratégies dans le cadre du meta-RL visant à doter les agents RL de la capacité à s'adapter sur des tâches différentes du domaine d'entraînement. La première partie de la thèse se concentre sur les techniques model-free, c'est à dire qui ne modélisent pas explicitement l'environnement, pour apprendre des stratégies d'exploration efficaces. Nous examinons deux scénarios : dans le premier, l'agent dispose d'un ensemble de tâches d'entraînement, ce qui lui permet de modéliser explicitement les tâches et d'apprendre des représentations de tâches généralisables ; dans le second, l'agent apprend sans récompense à maximiser la couverture de l'espace des états. Dans la deuxième partie, nous explorons l'application de la régression symbolique, un outil puissant pour développer des modèles prédictifs offrant une interprétabilité et une meilleure robustesse face aux changements de distribution. Ces modèles sont ensuite intégrés aux agents model-based pour améliorer la modélisation de la dynamique. De plus, cette recherche contribue au domaine de la régression symbolique en introduisant une collection de techniques exploitant les modèles génératifs, en particulier le Transformer, ce qui améliore leur précision et leur efficacité. En résumé, cette thèse aborde abordant le défi de la généralisation et adaptation dans le RL. Elle développe des techniques visant à permettre aux agents meta-RL de s'adapter à des tâches hors domaine, facilitant ainsi leur déploiement dans des scénarios du monde réel.