Intégrer des Connaissances Expertes dans des méthodes d'apprentissage par renforcement profond pour la conduite autonome
Auteur / Autrice : | Raphaël Chekroun |
Direction : | Fabien Moutarde |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique temps réel, robotique et automatique - Paris |
Date : | Soutenance le 02/04/2024 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique |
Partenaire(s) de recherche : | Laboratoire : Centre de robotique (Paris) |
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....) | |
Jury : | Président / Présidente : David Filliat |
Examinateurs / Examinatrices : Fabien Moutarde, Philippe Martinet, Emmanuel Rachelson, Fawzi Nashashibi, Sascha Hornauer, Marin Toromanoff, Maria Laura Delle Monache | |
Rapporteur / Rapporteuse : Philippe Martinet, Emmanuel Rachelson |
Résumé
Deux décennies après le premier défi de conduite autonome, qui n'a vu aucun gagnant réussir à naviguer 240 kilomètres de route désertique dans le désert de Mojave, les évolutions en apprentissage automatique ont permis d'importants progrès dans ce domaine. En particulier, la création de simulateurs open-source a facilité la recherche en matière de conduite autonome en permettant d'outrepasser les contraintes réglementaires et en offrant un moyen abordable de collecter des données. Cela, combiné à la montée des réseaux de neurones, a accéléré le développement de méthodes de plus en plus efficaces. Les recherches récentes en matière de planification de mouvement se concentrent principalement sur l'apprentissage par imitation et, dans une moindre mesure, sur l'apprentissage par renforcement. En apprenant à partir de données, les méthodes d'apprentissage automatique sont plus adaptables que celles basées sur des systèmes de règles, car elles dépendent moins d'une représentation parfaite et cohérente de l'environnement. Néanmoins, les approches par imitation restent limitées dans la compréhension des conséquences à long terme de leurs actions et rencontrent des problèmes de robustesse résultant d'une inadéquation de distribution. En revanche, l'approche par renforcement intègre des informations de retour à long terme et surmonte avec succès les problèmes de distribution en apprenant par essais et erreurs. Cependant, cette approche souffre d'inefficacité d'échantillonnage, d'instabilité pendant l'entraînement et d'un manque de garanties de convergence. Cette thèse vise à synergiser les points forts des deux approches tout en atténuant leurs faiblesses en intégrant des connaissances expertes avec des méthodes d'apprentissage par renforcement profond pour différentes applications liées à la conduite autonome.Après avoir récapitulé les méthodes existantes en matière de conduite autonome, cette thèse examine différentes facons d'introduire des connaissances expertes dans des algorithmes d'apprentissage par renforcement pour plusieurs tâches de conduite autonome. Tout d'abord, nous avons introduis une nouvelle méthode pour distiller de l'expertise dans un apprentissage par renforcement sans modèle et l'avons appliquée à la conduite autonome de bout en bout sur le simulateur CARLA. Ensuite, nous avons développé une approche tirant parti d'une base d'apprentissage par imitation pour guider un algorithme d'apprentissage par renforcement basé sur modèle dans un modèle partiellement appris de l'environnement pour la conduite autonome de milieu-à-fin sur le simulateur nuPlan. Enfin, nous avons conçu un module de prévision du trafic à l'échelle mésoscopique en temps réel, fait pour être utilisé avec un planificateur de vitesse centralisé basé sur l'apprentissage par renforcement sans modèle dans le cadre d'un controleur hiérarchique pour la dissipation du trafic en temps réel sur les autoroutes en utilisant une flotte de 100 véhicules connectés et autonomes.