Thèse en cours

Modélisation et prédiction du comportement humain au volant à l'aide de l'apprentissage par renforcement multi-agents

FR  |  
EN
Auteur / Autrice : Abdelghani Ghanem
Direction : Philippe CiblatMounir Ghogho
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 12/01/2021
Etablissement(s) : Institut polytechnique de Paris en cotutelle avec Université Internationale de Rabat
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire de Traitement et Communication de l'Information
Equipe de recherche : GTO : Télécommunications Optiques

Résumé

FR  |  
EN

La littérature sur la conduite autonome a établi qu'il est impossible de construire un cas statistiquement significatif pour le sécurité d'un système uniquement par le biais de tests dans le monde réel. La validation par simulation est une alternative au monde réel tests, avec la capacité d'évaluer les performances du véhicule dans un grand nombre de scènes rapidement, en toute sécurité et économiquement. Cette thèse vise à étendre les travaux de pointe sur l'apprentissage par imitation et l'apprentissage par renforcement multi-agents pour améliorer notre capacité à générer avec précision des scénarios de conduite réalistes. Dans de tels environnements critiques pour la sécurité, des modèles représentatifs du comportement humain de conduite sont essentiels à la validation des systèmes de conduite autonome. En fait, dans cette thèse, nous modélisons la conduite comme un problème de prise de décision séquentielle sous incertitude. En particulier, les processus décisionnels de Markov sont couramment utilisés pour ce type de problèmes. La conduite présente deux défis principaux du point de vue des techniques de solution MDP. Premièrement, la fonction de coût (également appelée fonction de récompense) est difficile à définir. Deuxièmement, les espaces d'état et d'action sont continus, ce qui rend les méthodes de résolution tabulaires inappropriées. Dans notre travail, nous nous intéressons au premier, car ce dernier est résolu, en général, en utilisant des politiques de conduite de réseau de neurones profonds qui peuvent fonctionner pour des espaces d'état-action continus sans nécessiter une énumération tabulaire. Pour traiter le problème de la conception d'une fonction de récompense succincte pour la tâche de conduite humaine, nous prévoyons de proposer trois travaux différents. Dans le premier travail candidat, nous prévoyons d'introduire un nouvel algorithme pour le problème d'attribution de crédit temporel. L'idée est de concevoir le problème de l'attribution de récompenses épisodiques comme un apprentissage du classement à partir de données implicites qui permettra de décomposer la récompense épisodique en parties et donc de les réaffecter à chaque pas de temps de la trajectoire sous forme de classements d'actions. Dans le deuxième travail du candidat, nous nous appuyons sur des études allant de la psychologie à l'ingénierie d'une fonction de récompense pour la tâche de conduire comme un humain. Cette fonction s'inspire des fonctions de coûts proposées dans des travaux antérieurs dans lesquels les agents sont entraînés à se rendre le plus rapidement possible vers différentes destinations échantillonnées au hasard sans entrer en collision avec d'autres agents. Dans le troisième travail candidat, nous nous appuyons sur l'extension des travaux de pointe sur l'apprentissage par imitation en incorporant des conditions de circulation mixtes. Cette approche repose sur l'utilisation de données de démonstration d'agents experts, c'est-à-dire de conducteurs humains, pour résoudre le MDP de conduite. Il convient de souligner que, même si chacun de ces travaux individuels semble isolé, ils ont tous un objectif commun qui est de développer des agents RL qui peuvent imiter le comportement humain. De plus, étant donné la complexité de la modélisation du conducteur humain, les trois approches pourraient être combinées (bien sûr avec une formulation appropriée du problème) pour construire des simulateurs de conduite personnalisés plus humains. Par exemple, les deux premiers travaux pourraient être combinés pour incorporer différents styles de conduite et règles de circulation, et le troisième travail pourrait être utilisé pour incorporer une dynamique de modèle réaliste en tenant compte des conditions de circulation mixtes. Dans notre thèse, nous proposons un quatrième travail candidat qui combine les trois premiers afin de développer le premier simulateur de conduite personnalisé marocain qui présente différents styles de conduite des conducteurs marocains.