Apprentissage de politiques multi-tâches pour la robotique
Auteur / Autrice : | Elliot Chane-sane |
Direction : | Cordelia Schmid, Ivan Laptev |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le Soutenance le 06/09/2023 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre |
Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
Equipe de recherche : WILLOW | |
établissement opérateur d'inscription : Ecole normale supérieure | |
Jury : | Président / Présidente : Fabien Moutarde |
Examinateurs / Examinatrices : Cordelia Schmid, Ivan Laptev, Nicolas Mansard, David Filliat, Christian Wolf | |
Rapporteur / Rapporteuse : Nicolas Mansard, David Filliat |
Mots clés
Résumé
Le développement de robots généralistes capables d'accomplir une vaste gamme de tâches présente un énorme potentiel pour alléger la charge de travail humain dans des tâches physiquement exigeantes, dangereuses ou fastidieuses. Malgré les études récentes sur l'utilisation de l'apprentissage profond pour le contrôle des robots, dans l'espoir de réaliser des avancées comparables à celles observées dans des domaines tels que la vision ou la compréhension du langage, le développement de robots polyvalents de cette nature est demeuré une entreprise complexe à concrétiser. Le contraste entre les progrès de l'apprentissage robotique par rapport à d'autres domaines de l'intelligence artificielle peut être attribué au manque de données disponibles sur Internet pouvant être directement exploitées pour l'apprentissage des politiques. De surcroît, le processus de collecte et d'annotation de données spécifiquement destinées à la robotique est chronophage et spécifique à une configuration matérielle. Dans cette thèse, nous introduisons de nouvelles méthodes pour l'apprentissage de politiques robotiques multitâches, offrant des solutions prometteuses pour relever ces défis. Notre première contribution est un nouvel algorithme d'apprentissage par renforcement qui apprend des politiques de contrôle robotique en interagissant avec l'environnement pour atteindre des configurations souhaitées. Le fait de formuler une tâche comme une configuration à atteindre présente l'avantage de permettre la définition de nombreuses tâches sans nécessiter de définir des fonctions de récompense spécifiques pour chaque tâche. Notre approche consiste à entraîner une politique de haut niveau qui utilise des sous-objectifs imaginés pour guider l'apprentissage, lesquels sont ensuite abandonnés après l'achèvement de l'entraînement. Notre approche démontre une meilleure efficacité d'échantillonnage et peut résoudre des tâches temporellement étendues plus complexes, surpassant les travaux antérieurs sur des problèmes de locomotion complexes et de manipulations à partir d'observations visuelles. Définir une tâche au travers de configurations à atteindre limite l'éventail de tâches possibles et peut poser des difficultés pour les utilisateurs non experts. Notre deuxième contribution est une méthode d'apprentissage de politiques capables de suivre des instructions vidéo humaines pour la manipulation robotique multitâche basée sur la vision. Cette approche offre une manière plus accessible de communiquer la tâche souhaitée au robot, tout en ouvrant la possibilité de généralisation à des tâches pour lesquelles la politique n'a pas été spécifiquement entraînée. À partir de trajectoires de robot collectées au préalable, nous entraînons une politique multitâche en la conditionnant sur les vidéos correspondants aux séquences d'images capturées par la caméra du robot. Ensuite, nous conditionnons la politique avec une démonstration vidéo humaine en utilisant une fonction de similarité entre les vidéos apprises à partir d'une vaste collection de vidéos humaines. Notre approche permet le contrôle des robots à l'aide de démonstrations humaines de manière non supervisée, car nous n'utilisons pas de trajectoires de robot appariées à des instructions humaines lors de l'entraînement. Cela élimine le processus fastidieux d'annotation humaine ou de conception de récompenses pour chaque tâche robotique que nous souhaitons aborder.