Thèse soutenue

Un robot curieux pour l’apprentissage actif par babillage d’objectifs : choisir de manière stratégique quoi, comment, quand et de qui apprendre

FR  |  
EN
Auteur / Autrice : Sao Mai Nguyen
Direction : Pierre-Yves Oudeyer
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/11/2013
Etablissement(s) : Bordeaux 1
Ecole(s) doctorale(s) : École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique - Laboratoire Bordelais de Recherche en Informatique / LaBRI
Jury : Président / Présidente : Britta Wrede
Examinateurs / Examinatrices : Olivier Stasse, Olivier Sigaud
Rapporteur / Rapporteuse : Philippe Gaussier, Yiannis Demiris

Résumé

FR  |  
EN

Les défis pour voir des robots opérant dans l’environnement de tous les jours des humains et sur unelongue durée soulignent l’importance de leur adaptation aux changements qui peuvent être imprévisiblesau moment de leur construction. Ils doivent être capable de savoir quelles parties échantillonner, et quelstypes de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manièresde collecter des données des modes d’échantillonnage. Le premier mode d’échantillonnage correspondà des algorithmes développés dans la littérature pour automatiquement pousser l’agent vers des partiesintéressantes de l’environnement ou vers des types de compétences utiles. De tels algorithmes sont appelésdes algorithmes de curiosité artificielle ou motivation intrinsèque. Le deuxième mode correspond au guidagesocial ou l’imitation, où un partenaire humain indique où explorer et où ne pas explorer.Nous avons construit une architecture algorithmique intrinsèquement motivée pour apprendre commentproduire par ses actions des effets et conséquences variées. Il apprend de manière active et en ligne encollectant des données qu’il choisit en utilisant plusieurs modes d’échantillonnage. Au niveau du metaapprentissage, il apprend de manière active quelle stratégie d’échantillonnage est plus efficace pour améliorersa compétence et généraliser à partir de son expérience à un grand éventail d’effets. Par apprentissage parinteraction, il acquiert de multiples compétences de manière structurée, en découvrant par lui-même lesséquences développementale.