Thèse en cours

Agents autonomes avec apprentissage par renforcement profond guidés par le langage

FR  |  
EN
Auteur / Autrice : Thomas Carta
Direction : Pierre-Yves OudeyerOlivier Sigaud
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 27/09/2021
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Centre de recherche Inria de l'université de Bordeaux (Bordeaux)
Equipe de recherche : FLOWERS

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Ce doctorat s'appuiera sur les récentes architectures RL profondes autonomes guidées par le langage, en particulier IMAGINE (Colas et al. 2020) et DECSTR (Akakzia et al. 2021), et visera à remédier à leurs limites actuelles. Une première limite a été de limiter l'agent à l'utilisation de phrases simples (par exemple 'saisir le cube vert'), limitant les buts à des 'buts instantanés' : des buts dont la fonction d'atteinte correspondante ne nécessite que l'observation de l'état actuel du monde et de l'agent (par exemple 'aller à la cuisine', ou 'ouvrir la porte'). Cependant, les humains utilisent souvent des 'buts étendus dans le temps', associés à des descriptions linguistiques constituées d'ensembles de phrases, et correspondant à des récits (Bruner 1991). L'objectif principal du doctorat est d'étendre ces techniques à des ensembles de phrases qui décrivent des buts de manière structurée, avec des relations spatio-temporelles entre les actions, les événements, les observations. Une première approche que nous allons considérer sera basée sur l'utilisation de transformers [Vaswani et al. 2017, Loynd 2020], connus pour avoir d'excellentes propriétés pour l'apprentissage de représentations qui peuvent gérer des dépendances temporelles longues dans des tâches séquentielles, mais encore inexplorés dans le contexte de l'apprentissage par renforcement profond guidé par le langage. Nous envisagerons également de combiner les transformateurs avec une décomposition modulaire centrée sur les disponibilités des scènes telles que perçues par l'agent (Karch et al., 2020). Nous étudierons comment de tels transformers multimodaux centrés sur les disponibilités peuvent permettre l'apprentissage efficace de classes plus importantes de significations spatio-temporelles de langage/narration que celles considérées jusqu'à présent. Nous explorerons également des approches alternatives telles que les Deep Sets et les réseaux neuronaux graphiques. Une deuxième limite est que les buts/tâches considérés jusqu'à présent étaient purement comportementaux : cependant, dans de nombreuses applications, les tâches consistent à collecter des informations (par exemple : ' Explorez ce bâtiment et dites-moi combien d'objets bleus il y a '). Nous étudierons ici comment de telles tâches de collecte d'informations peuvent être réalisées en dotant les agents d'une mémoire à court terme leur permettant d'encoder et d'interroger les informations découvertes lors de l'exécution d'une tâche. Notre approche s'appuiera sur l'utilisation de graphes de connaissances, qui se sont révélés très prometteurs dans des travaux récents impliquant la RL profonde dans des jeux de fiction interactifs (Hausknecht et al., 2019 ; Adhikari et al., 2020), permettant de conditionner les politiques de RL avec des incorporations de graphes de connaissances. Une autre limite des approches actuelles a été une interaction simpliste avec le 'social pair' : ici, nous visons à étudier et à permettre une interaction linguistique dynamique bidirectionnelle, où l'agent peut poser des questions aux utilisateurs humains pour obtenir de l'aide dans l'apprentissage et l'exploration, et pour donner du sens aux explications linguistiques, par exemple pour mettre à jour le modèle du monde (éventuellement sous la forme d'un graphe de connaissances) ou pour décider quel objectif ou quelles actions explorer. Inversement, nous chercherons à permettre à l'agent de répondre aux questions des utilisateurs sur ce qu'il a découvert lorsque les tâches consistent à collecter des informations. Ceci constituerait une forme d'exploration coopérative, où l'agent et l'humain peuvent prendre l'initiative de se transmettre des informations et des questions. Méthodologie et outils expérimentaux: les expériences seront réalisées avec des agents incarnés simulés en utilisant des environnements tels que Baby AI, pyBullet, ou Minecraft/Malmo. L'ensemble du code sera publié en open-source et partagé avec la communauté scientifique. Ce projet bénéficiera de l'accès au supercalculateur Jean Zay, pour lequel l'équipe Flowers a obtenu un budget de 2 millions d'heures de GPU et CPU à partir de 2021.