Thèse soutenue

Apprentissage par renforcement du contrôle d’un véhicule autonome à partir de la vision

FR  |  
EN
Auteur / Autrice : Marin Toromanoff
Direction : Fabien Moutarde
Type : Thèse de doctorat
Discipline(s) : Informatique temps réel, robotique, automatique
Date : Soutenance le 31/03/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de robotique (Paris)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Pierre-Yves Oudeyer
Examinateurs / Examinatrices : Fabien Moutarde, Christian Gagné, Rémi Munos, Véronique Berge-Cherfaoui, Émilie Wirbel
Rapporteurs / Rapporteuses : Olivier Pietquin, Thierry Chateau

Résumé

FR  |  
EN

Dans cette thèse, nous abordons les défis de la conduite autonome en environnement urbain en utilisant des algorithmes d’apprentissage par renforcement profond de bout-en-bout, i.e. des données brutes des capteurs jusqu’au contrôle des actuateurs du véhicule. L’apprentissage par renforcement (RL) est un des trois grands paradigmes de l’apprentissage automatique. Il se distingue de l’apprentissage supervisé par le fait que les agents apprennent par essai-erreur à partir d’un signal de récompense et non pas par simple supervision avec des paires entrée-label comme pour l’apprentissage supervisé, le type d’apprentissage le plus utilisé aujourd’hui dans les applications d’intelligence artificielle. Dans l’apprentissage par renforcement, on cherche explicitement à optimiser des séquences d’actions afin de maximiser le comportement à long terme. L’intérêt majeur du RL est que l’agent apprend de lui-même le comportement à suivre en explorant et en interagissant avec son environnement : on n’a donc pas besoin d’indiquer explicitement les actions à prendre. Dans un premier temps, nous avons proposé un nouvel algorithme de renforcement fondé sur la fonction de valeur, Rainbow-IQN Ape-X, en combinant trois articles majeurs du domaine. Cet algorithme atteint des performances au niveau de l’état de l’art sur le benchmark Atari. En utilisant cet algorithme de renforcement distribué, nous avons introduit les indices implicites, une nouvelle méthode permettant d’entraîner par renforcement des réseaux de neurones avec bien plus de paramètres et des entrées de plus grande dimension que les travaux précédents en DRL. Cette technique nous a ainsi permis de démontrer pour la première fois un algorithme de renforcement capable de conduire dans un simulateur complexe incluant des piétons, des véhicules et surtout des feux tricolores. Finalement, nous avons utilisé toutes nos contributions précédentes pour effectuer de l’apprentissage par renforcement sur données réelles pour de la conduite en environnement urbain. L’idée fondamentale de notre approche est d’utiliser un simulateur fondé sur des images réelles pour réussir à entraîner des agents capables de généraliser aux données réelles.