Thèse soutenue

Apprentissage de compétences de plus en plus complexes via l'apprentissage profond par renforcement en utilisant la motivation intrinsèque
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Arthur Aubret
Direction : Salima HassasLaëtitia Matignon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/11/2021
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École Doctorale d'Informatique et Mathématiques (Lyon)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....)
Jury : Président / Présidente : Alexandre Aussem
Examinateurs / Examinatrices : Salima Hassas, Laëtitia Matignon, Alain Dutech, David Filliat, Pierre-Yves Oudeyer
Rapporteurs / Rapporteuses : Alain Dutech, David Filliat

Résumé

FR  |  
EN

En apprentissage par renforcement (RL), un agent apprend à résoudre une tâche en interagissant avec son environnement. Afin de faire passer à l’échelle ces agents sur des tâches complexes, les méthodes récentes ont proposé avec succès d’intégrer les méthodes d’apprentissage profond au RL, créant le domaine d’apprentissage profond par renforcement (DRL). Cependant, la signification sémantique d’une tâche est toujours pourvue par une fonction de récompense experte qui guide l’agent dans son processus d’apprentissage. Ce paradigme contraste avec la manière dont les animaux et humains apprennent: les travaux de psychologie suggèrent que les humains sont intrinsèquement motivés à acquérir de nouvelles connaissances à propos de leur environnement. Dans cette thèse, notre objectif est d’étudier comment la motivation intrinsèque permet de résoudre les problèmes expérimentés par le DRL. Tout d’abord, nous mettons en évidence comment les motivations intrinsèques actuelles attaquent certains problèmes du DRL. Nous classifions et formalisons les méthodes, puis analysons leurs limites. Afin d’exhiber leur importance, nous mettons en avant que ces verrous peuvent empêcher un agent d’apprendre des compétences et représentations de l’environnement de plus en plus complexes. Ce sont des éléments-clés pour faire apprendre des agents autonomes comme des humains. Á partir de cette analyse, nous introduisons deux nouveaux modèles qui peuvent apprendre des compétences diverses et spécifiques à une tâche de bout en bout. Le premier, ELSIM, construit un arbre discret de compétences dans la direction des récompenses de l’environnement. Nos résultats montrent que ce paradigme d’apprentissage améliore l’exploration dans des environnements avec des récompenses éparses et permet d’utiliser des compétences sur différentes tâches corrélées. Nous mettons en avant les inconvénients d’ELSIM et proposons un autre modèle, DisTop, pour les corriger. DisTop construit progressivement une topologie de l’environnement en utilisant une fonction de coût contrastive, un réseau auto-organisé et une politique dépendante d’objectifs. L’agent peut alors intelligemment contrôler quelles compétences apprendre ou oublier. De cette manière, DisTop est compétitif avec des algorithmes de l’état de l’art sur trois types de tâches différentes, incluant une tâche hiérarchique avec des récompenses éparses. Pour conclure la thèse, nous discutons des perspectives du domaines et des directions futures de notre recherche.