Thèse en cours

Intégrer des Connaissance Expertes dans des Méthodes d'Apprentissage par Renforcement Profond pour la Conduite Autonome

FR  |  
EN
Auteur / Autrice : Raphaël Chekroun
Direction : Fabien Moutarde
Type : Projet de thèse
Discipline(s) : Informatique temps réel, robotique et automatique - Paris
Date : Inscription en doctorat le 04/01/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique
Partenaire(s) de recherche : Laboratoire : Mathématiques et Systèmes
Equipe de recherche : CAOR - Centre de CAO et Robotique
établissement opérateur d'inscription : Université de Recherche Paris Sciences et Lettres (2015-2019)

Résumé

FR  |  
EN

L'objectif de la thèse est d'appliquer de l'apprentissage par renforcement à la conduite autonome, et plus particulièrement d'explorer les possibilités de transfert dans le cadre du RL. Pour cela, plusieurs pistes de recherche sont possibles, bien entendu le doctorant lui même pourra rajouter/compléter ces premiers axes de recherche durant les premiers mois de la thèse. - Axe 1 : Transfert simulation-réel pour l'apprentissage par renforcement par randomisation de domaine Comme dit précédemment l'apprentissage par renforcement va se faire majoritairement dans une simulation. Pour appliquer du renforcement à un cas réel, cela va donc nécessiter un transfert simulation au réel. C'est pour cela que le thème du transfert et un axe majeur de recherche pour l'apprentissage par renforcement. La randomisation de domaine est une technique prometteuse de transfert simulation-réel. L'idée est de rendre l'environnement le plus aléatoire possible tout en gardant la même tâche finale à résoudre. L'intuition est que le monde réel pourra être vu par l'agent comme une nième simulation aléatoire. - Axe 2 : Découplage perception/supervisé - politique/renforcement La question d'obtenir une représentation compacte et complète de l'environnement à partir d'une architecture end-to-end, tout en gardant un nombre limité de paramètres, a été abordée par l'équipe dans des travaux précédents. D'autres travaux proposent une approche qui partent du constat que pour des tâches complexes (dans leur cas, de la navigation en intérieur), utiliser naïvement une approche end-to-end peut être problématique. Ils remarquent notamment que pour obtenir une généralisation, soit des tâches à accomplir, soit en passant d'un environnement à un autre, il est possible de découpler l'entraînement de l'encodeur et du décodeur. Pour passer d'un environnement à un autre, en réalisant les mêmes tâches, les décodeurs sont fixés et l'encodeur ré-entraîné. Le but de cet axe de recherche serait donc d'explorer les possibilités d'application au véhicule autonome, notamment dans la perspective d'une extension des travaux de l'équipe. Plus particulièrement, une approche qui semble prometteuse comme extension des travaux de l'équipe est d'essayer d'utiliser les architectures de l'état de l'art pour la perception afin d'améliorer la représentation utilisée comme état de l'agent de renforcement. - Axe 3 : Combiner apprentissage par imitation et apprentissage par renforcement L'apprentissage par imitation est actuellement plus mature que l'apprentissage par renforcement. En effet, l'imitation étant de l'apprentissage supervisé, il est généralement beaucoup plus stable et plus rapide à faire converger. De nombreux travaux récents ont montré les succès de cette approche, que ce soit sur simulateur ou sur données réelles. Cependant comme dit précédemment l'apprentissage par renforcement comporte différent avantages. Cet axe de recherche consisterait donc à essayer de combiner ces méthodes d'apprentissages. L'idée naïve la plus simple serait d'apprendre d'abord par imitation puis d'améliorer les performances finales avec de l'apprentissage par renforcement. Cela permet en effet de commencer l'apprentissage par renforcement avec un agent sachant déjà percevoir l'environnement autour de lui et connaissant déjà un minimum l'objectif de la tâche.