Exploiter les modèles de langage et l'apprentissage par renforcement pour générer des instructions et interagir avec les robots
Auteur / Autrice : | Mohamed Aissi |
Direction : | Laure Soulier |
Type : | Projet de thèse |
Discipline(s) : | Sciences de l'ingénieur |
Date : | Inscription en doctorat le 01/12/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut des Systèmes Intelligents et de Robotique |
Mots clés
Résumé
Ce doctorat est fondé sur le projet européen PILLAR (2023-2027) qui vise à développer une nouvelle génération de robots capables de s'appuyer sur l'expérience acquise au cours de leur vie pour répondre aux souhaits de leurs concepteurs/utilisateurs humains dans des applications réelles. Les agents autonomes ont besoin de stratégies de raisonnement et de planification pour accomplir leurs tâches. La sémantique capturée par de grands modèles linguistiques peut améliorer le processus de décision à différents niveaux. Le langage naturel peut servir à construire et à clarifier la stratégie de planification, et donc les actions effectuées par un robot. Plusieurs travaux ont abordé l'identification des instructions en tant que représentation abstraite ou expression du langage naturel, mais la supervision de données limitées est souvent un défi. Dans cette thèse, nous envisageons de travailler sur la génération d'instructions en langage naturel et d'améliorer les modèles actuels. Notre objectif est d'améliorer la sémantique des objets afin d'identifier les actions/sous-actions les plus pertinentes et de concevoir des modèles hybrides combinant l'apprentissage par renforcement et les modèles de langage pour générer des instructions précises. Nous envisageons trois principaux défis de recherche : (1) l'apprentissage de représentations multimodales pour les instructions, (2) l'hybridation de l'apprentissage par renforcement et des modèles linguistiques pour des agents plus riches qui suivent les instructions, et (3) l'interaction proactive pour résoudre l'incertitude dans la génération d'instructions.