Thèse soutenue

Apprentissage profond par Renforcement et Démonstrations, pour le comportement de robots manipulateurs

FR  |  
EN
Auteur / Autrice : Jesús Bujalance martin
Direction : Fabien Moutarde
Type : Thèse de doctorat
Discipline(s) : Informatique temps réel, robotique et automatique - Paris
Date : Soutenance le 24/06/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique
Partenaire(s) de recherche : Laboratoire : Centre de robotique (Paris)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Amel Bouzeghoub
Examinateurs / Examinatrices : Fabien Moutarde, David Filliat, Philippe Preux, Olivier Sigaud
Rapporteur / Rapporteuse : David Filliat, Philippe Preux

Résumé

FR  |  
EN

Malgré leur grand succès, les algorithmes d'apprentissage par renforcement doivent encore devenir plus efficaces en termes d'échantillons, en particulier pour la robotique où il est beaucoup plus difficile d'entraîner un agent en dehors d'un environnement de simulation. Alors que la communauté se tourne vers des approches orientées données (apprentissage par renforcement “offline”, “decision transformers”, etc.), nous nous concentrons dans cette thèse sur l'apprentissage par renforcement “off-policy” et explorons différentes manières d'incorporer des données supplémentaires dans les algorithmes. En particulier, nous nous appuyons sur des démonstrations d'experts, qui peuvent contribuer à l'efficacité ainsi qu'à la performance globale. L'objectif est de concevoir des algorithmes efficaces pour résoudre des tâches de manipulation robotique, comme actionner un interrupteur ou faire glisser un cube sur une table.Après une étude approfondie de l'apprentissage par renforcement et par imitation, nous présentons tout d'abord notre méthode de ré-étiquetage des récompenses, qui peut être considérée comme une forme de “reward shaping” qui se produit a posteriori, une fois que l'ensemble de l'épisode a été collecté. Cette approche peut s'appliquer à tout algorithme “off-policy” pour bénéficier à la fois des signaux de renforcement et d'imitation. En nous appuyant sur cette méthode, nous présentons ensuite un algorithme plus efficace qui regroupe des travaux antérieurs et concomitants qui traitent également de questions similaires.Enfin, nous passons au cadre plus réaliste de l'apprentissage par renforcement basé sur la vision. Pour résoudre ce problème, nous concevons un pipeline d'entraînement en deux étapes : d'abord, apprendre une représentation visuelle de la scène en pré-entraînant un encodeur à partir de plusieurs objectifs supervisés de vision, puis entraîner un agent d'apprentissage par renforcement qui peut se concentrer uniquement sur la résolution de la tâche. Bien que toutes les données soient collectées en simulation, les expériences comprennent un exemple de transfert simulation-réalité pour montrer que ces techniques peuvent s'appliquer à des environnements contrôlés du monde réel.