Apprentissage par renforcement intrinsèquement motivé et interactif : une approche développementale
Auteur / Autrice : | Pierre Fournier |
Direction : | Olivier Sigaud, Mohamed Chetouani |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 29/11/2019 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....) |
Jury : | Président / Présidente : Nicolas Maudet |
Examinateurs / Examinatrices : Pierre-Yves Oudeyer | |
Rapporteurs / Rapporteuses : Alain Dutech, Michèle Sebag |
Mots clés
Mots clés contrôlés
Résumé
L'apprentissage par renforcement est aujourd'hui plus populaire que jamais, mais plusieurs compétences simples lui restent hors de portée: manipulation d'objets, contrôle sensorimoteur, interaction naturelle avec d'autres agents. Une approche possible pour aborder ces défis consiste à s'inspirer du développement humain, voire de tenter de le reproduire. Dans cette thèse, nous étudions l'intersection de deux sujets cruciaux en sciences du développement, et leur application à l'apprentissage par renforcement dans le but d'aborder ces défis: l'apprentissage social et la motivation intrinsèque. L'interaction et la motivation intrinsèque ont déjà été étudiées, séparément, en combinaison avec l'apprentissage par renforcement, mais avec l'objectif d'améliorer les performances d'agents existants plutôt que d'apprendre de manière développementale. Nous concentrons donc à l'inverse notre étude sur l'aspect développemental de ces deux sujets. Nos travaux de thèse abordent en particulier l'auto-organisation de l'apprentissage en trajectoires développementale par recherche intrinsèquement motivée du progrès d'apprentissage, et l'interaction de cette organisation avec l'apprentissage dirigé vers des buts et l'apprentissage par imitation. Nous montrons que ces différents mécanismes, lorsqu'ils sont mis en place dans des environnements ouverts sans tâche prédéfinie, peuvent interagir pour produire des comportements d'apprentissage satisfaisants d'un point de vue développemental, et plus riches que ceux produits par chaque mécanisme séparément: génération automatique de curriculum, imitation sélective, suivi non-supervisé de démonstrations.