Thèse soutenue

Apprentissage par renforcement intrinsèquement motivé et interactif : une approche développementale

FR  |  
EN
Auteur / Autrice : Pierre Fournier
Direction : Olivier SigaudMohamed Chetouani
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/11/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Nicolas Maudet
Examinateurs / Examinatrices : Pierre-Yves Oudeyer
Rapporteurs / Rapporteuses : Alain Dutech, Michèle Sebag

Résumé

FR  |  
EN

L'apprentissage par renforcement est aujourd'hui plus populaire que jamais, mais plusieurs compétences simples lui restent hors de portée: manipulation d'objets, contrôle sensorimoteur, interaction naturelle avec d'autres agents. Une approche possible pour aborder ces défis consiste à s'inspirer du développement humain, voire de tenter de le reproduire. Dans cette thèse, nous étudions l'intersection de deux sujets cruciaux en sciences du développement, et leur application à l'apprentissage par renforcement dans le but d'aborder ces défis: l'apprentissage social et la motivation intrinsèque. L'interaction et la motivation intrinsèque ont déjà été étudiées, séparément, en combinaison avec l'apprentissage par renforcement, mais avec l'objectif d'améliorer les performances d'agents existants plutôt que d'apprendre de manière développementale. Nous concentrons donc à l'inverse notre étude sur l'aspect développemental de ces deux sujets. Nos travaux de thèse abordent en particulier l'auto-organisation de l'apprentissage en trajectoires développementale par recherche intrinsèquement motivée du progrès d'apprentissage, et l'interaction de cette organisation avec l'apprentissage dirigé vers des buts et l'apprentissage par imitation. Nous montrons que ces différents mécanismes, lorsqu'ils sont mis en place dans des environnements ouverts sans tâche prédéfinie, peuvent interagir pour produire des comportements d'apprentissage satisfaisants d'un point de vue développemental, et plus riches que ceux produits par chaque mécanisme séparément: génération automatique de curriculum, imitation sélective, suivi non-supervisé de démonstrations.