Thèse soutenue

Enseigner des agents autotéliques basés sur des prédicats

FR  |  
EN
Auteur / Autrice : Ahmed Akakzia
Direction : Olivier SigaudMohamed Chetouani
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/10/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Stéphane Doncieux
Examinateurs / Examinatrices : Pierre-Yves Oudeyer, Ginevra Castellano
Rapporteurs / Rapporteuses : Martin V. Butz, Peter Ford Dominey

Résumé

FR  |  
EN

Dans la quête de concevoir des machines incarnées qui explorent leurs environnements en autonomie, découvrent des nouveaux comportements et apprennent des répertoires non-bornés de compétences, l'intelligence artificielle s'est longuement inspirée des domaines de psychologie du développement et des sciences cognitives qui étudient la capacité remarquable des humains à apprendre tout au long de leur vie. Ceci a donné naissance au domaine de la robotique du développement qui a pour but de concevoir des agents artificiels autonomes capables d'auto-organiser leurs trajectoires d'apprentissage en se basant sur leurs motivations intrinsèques. Ce domaine combine les processus d'exploration de but intrinsèquement motivés (IMGEPs) et l'apprentissage par renforcement (RL). Cette combinaison est connue sous le nom d'apprentissage par renforcement autotélique, où des agents autotéliques sont intrinsèquement motivés pour représenter, organiser et apprendre leurs propres buts. Naturellement, ces agents doivent démontrer de bonnes capacités d'exploration puisqu'ils ont besoin de découvrir physiquement les buts pour pouvoir les apprendre. Malheureusement, découvrir des comportements intéressants peut être compliqué, surtout dans les environnements d'exploration difficile où les signaux de récompenses sont parcimonieux, déceptifs ou contradictoires. Dans ces scénarios, la situation physique des agents semble insuffisante. Heureusement, la recherche en psychologie du développement et les sciences de l'éducation soulignent le rôle important des signaux socio-culturels dans le développement des enfants humains. Cette situation sociale améliore les capacités d'exploration des enfants, leur créativité et leur développement. Cependant, l'apprentissage par renforcement profond considère l'apprentissage social comme une imposition d'instructions aux agents, ce qui les prive de leur autonomie. Dans ce document, nous introduisons les agents autotéliques enseignables, une nouvelle famille de machines autonomes qui peuvent apprendre à la fois toutes seules et à travers des signaux sociaux externes. Nous formalisons cette famille en tant que processus d'exploration de but hybride (HGEPs), où les agents autotéliques sont augmentés d'un mécanisme d'internalisation leur permettant de rejouer les signaux sociaux et d'un sélecteur de source de buts pour demander activement de l'aide sociale. Ce document est organisé en deux parties. Dans la première partie, nous nous concentrons sur la conception d'agents autotéliques enseignables et nous essayons d'implémenter des propriétés qui faciliteraient l'interaction sociale. Notamment, nous introduisons les agents autotéliques basés sur les prédicats, une nouvelle famille d'agents autotéliques qui représentent leurs buts en utilisant des prédicats binaires spatiaux. Nous montrons que l'espace de représentation sémantique sous-jacent joue le rôle de pivot entre la représentation sensorimotrice et le langage, permettant un découplage entre l'apprentissage sensorimoteur et l'ancrage du langage. Nous étudions également la conception des politiques et des fonctions valeurs état-action et nous soutenons que la combinaison des réseaux de neurones graphiques (GNNs) et des buts en prédicats relationnels permet l'utilisation de schémas computationnels légers qui transfèrent bien entre les tâches. Dans la deuxième partie, nous formalisons les interactions sociales en tant que processus d'exploration de buts. Nous introduisons Help Me Explore (HME), un nouveau protocole d'interaction sociale où un partenaire social expert guide progressivement l'agent au-delà de sa zone de développement proximale (ZPD). L'agent choisit activement de lancer des requêtes à son partenaire social dès qu'il estime qu'il ne progresse plus sur les buts qu'il connait déjà. Il finit éventuellement par internaliser ces signaux sociaux, devient moins dépendant envers son partenaire social et arrive à maximiser son contrôle de son espace de buts.