Exploration des algorithmes d'apprentissage par renforcement pour la perception et le controle d'un véhicule autonome par vision
Auteur / Autrice : | Florence Carton |
Direction : | David Filliat |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, données, IA |
Date : | Soutenance le 31/05/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : École nationale supérieure de techniques avancées (Palaiseau). Unité d'Informatique et d'Ingénierie des Systèmes |
Jury : | Président / Présidente : Thierry Chateau |
Examinateurs / Examinatrices : Alain Dutech, Jaonary Rabarisoa | |
Rapporteur / Rapporteuse : Christian Wolf, Fabien Moutarde |
Mots clés
Résumé
L'apprentissage par renforcement est une approche permettant de résoudre un problème de prise de décision séquentielle. Dans ce formalisme, un agent autonome interagit avec un environnement et reçoit des récompenses en fonction des décisions qu'il prend. L'objectif de l'agent est de maximiser le montant total des récompenses qu'il obtient. Dans le paradigme de l'apprentissage par renforcement, l'agent apprend par essais-erreurs la politique (séquence d'actions) qui donne les meilleures récompenses.Dans cette thèse, nous nous concentrons sur son application à la perception et au contrôle d'un véhicule autonome. Pour rester proche des conditions d'un conducteur humain, seule la caméra embarquée est utilisée comme capteur d'entrée. Nous nous focalisons en particulier sur l'apprentissage de bout-en-bout de la conduite, c'est-à-dire une correspondance directe entre les informations provenant de l'environnement et l'action choisie par l'agent. Ce type d'apprentissage pose cependant certains défis : les grandes dimensions des espaces d'états et d'actions ainsi que l'instabilité et la faiblesse du signal de l'apprentissage par renforcement pour entraîner des réseaux de neurones profonds.Les approches que nous avons mises en oeuvre pour faire face à ces défis reposent sur l'utilisation de l'information sémantique (segmentation d'images). En particulier, nous explorons l'apprentissage conjoint de l'information sémantique et de la navigation.Nous montrons que ces méthodes sont prometteuses et permettent de lever certains verrous. D'une part combiner l'apprentissage supervisé de la segmentation à l'apprentissage par renforcement de la navigation améliore les performances de l'agent, ainsi que sa capacité à généraliser à un environnement inconnu. D'autre part, cela permet d'entraîner un agent qui sera plus robuste aux évènements inattendus et capable de prendre des décisions en limitant les risques.Les expériences sont menées en simulation, et de nombreuses comparaisons avec les méthodes de l'état de l'art sont effectuées.