Thèse soutenue

Apprenticeship learning : transferring human motivations to artificial agents

FR  |  
EN
Auteur / Autrice : Léonard Hussenot
Direction : Philippe PreuxOlivier Pietquin
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 14/12/2022
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
Partenaire(s) de recherche : Laboratoire : Centre Inria de l'Université de Lille - Centre de Recherche en Informatique, Signal et Automatique de Lille
Jury : Président / Présidente : Damien Ernst
Examinateurs / Examinatrices : Martha White, Matthieu Geist, Olivier Bachem
Rapporteur / Rapporteuse : Pierre-Yves Oudeyer, Emmanuel Rachelson

Résumé

FR  |  
EN

L'apprentissage par renforcement est un cadre mathématique et algorithmique générique qui vise à developper des algorithmes qui interagissent avec leur environnement et s'améliorent au fil du temps pour maximiser leur recompense sur le long terme. Il permet d'aborder divers problèmes de prise de décision séquentielle comme la robotique, les jeux de plateaux ou jeux vidéo ou encore les véhicules autonomes. Cependant, ces agents d'apprentissage par renforcement nécessitent une grande quantité d'interactions avec leur environnement pour apprendre, et il est souvent difficile de concevoir une fonction de récompense qui soit précisément alignée sur ce que nous attendons de lui. L'apprenticeship learning s'attaque à ce problème en s'appuyant non seulement sur la fonction de récompense, mais aussi sur des données supplémentaires. Typiquement, ces données se présentent sous la forme de démonstrations. Comment tirer le meilleur parti de telles démonstrations, en particulier lorsqu'elles sont produites par un être humain, est une question ouverte. Cette thèse présente des contributions pratiques à l'apprenticeship learning. Nous nous intéressons d'abord à l'apprentissage par imitation, où le but est de mimer les démonstrations considérées comme optimales. Nous étudions comment concevoir un algorithme d'apprentissage par imitation adversariale. Nous donnons des recommandations sur les différents choix à faire lors de la conception d'un tel agent et nous soulignons les différences entre imiter des démonstrations synthétiques et humaines. Pour contourner la fragilité de ces méthodes (conséquence de leur formulation mathématique), nous concevons un nouvel algorithme d'apprentissage par imitation. En dérivant une borne supérieure d'une distance de transport optimale, nous évitons l'optimisation du point de selle et obtenons un algorithme simple avec peu d'hyperparamètres. Nous démontrons ses performances sur des tâches robotiques simulées dans un régime de données très faible. Nous étudions ensuite comment sélectionner des hyperparamètres dans le cadre de l'apprentissage par imitation, sans accès à la fonction de récompense. Nous utilisons pour cela les deux algorithmes susmentionnés ainsi que l'approche standard d'imitation par apprentissage supervisé. Dans une seconde partie, afin de tirer le meilleur parti à la fois des démonstrations et de la récompense, nous concevons un algorithme qui permet le transfert de la motivation intrinsèque des démonstrations à l'agent, améliorant ainsi son exploration de l'environnement. Nous montrons que la motivation apprise, extraite des données, transmet de l'information venant des démonstrations. Enfin, nous montrons que l'on peut transférer les incitations humaines d'une manière différente, en apprenant une discrétisation état-dépendante de l'espace d'action de l'agent. Nous montrons l'efficacité des algorithmes résultants sur une variété de tâches robotiques, en utilisant des démonstrations humaines ainsi que des données de jeux (sans objectif défini) humaines, avec ou sans fonction de récompense.