Thèse soutenue

Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine sûre à l'aide de capteurs à faible coût.

FR  |  
EN
Auteur / Autrice : Mohamad Albilani
Direction : Amel Bouzeghoub
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 22/04/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : SAMOVAR - Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux - Institut Polytechnique de Paris / IP Paris - Département Informatique / INF - Architecture, Cloud continuum, formal Models, artificial intElligence and Services in distributed computing / ACMES-SAMOVAR
Etablissement opérateur d'inscription : Télécom SudParis (Evry ; 2012-....)
Jury : Président / Présidente : Maryline Laurent
Examinateurs / Examinatrices : Fawzi Nashashibi, Lounis Adouane, Philippe Xu, Sascha Hornauer
Rapporteurs / Rapporteuses : Fawzi Nashashibi, Lounis Adouane

Résumé

FR  |  
EN

La recherche effectuée dans cette thèse concerne le domaine de la conduite urbaine sûre, en utilisant des méthodes de fusion de capteurs et d'apprentissage par renforcement pour la perception et le contrôle des véhicules autonomes (VA). L'évolution généralisée des technologies d'apprentissage automatique ont principalement propulsé la prolifération des véhicules autonomes ces dernières années. Cependant, des progrès substantiels sont nécessaires avant d'atteindre une adoption généralisée par le grand public. Pour accomplir son automatisation, les véhicules autonomes nécessitent l'intégration d'une série de capteurs coûteux (e.g. caméras, radars, LiDAR et capteurs à ultrasons). En plus de leur fardeau financier, ces capteurs présentent une sensibilité aux variations telles que la météo, une limitation non partagée par les conducteurs humains qui peuvent naviguer dans des conditions diverses en se fiant à une vision frontale simple. Par ailleurs, l'avènement des algorithmes neuronaux de prise de décision constitue l'intelligence fondamentale des véhicules autonomes. Les solutions d'apprentissage profond par renforcement, facilitant l'apprentissage de la politique du conducteur de bout en bout, ont trouvé application dans des scénarios de conduite élémentaires, englobant des tâches telles que le maintien dans la voie, le contrôle de la direction et la gestion de l'accélération. Cependant, il s'avère que ces algorithmes sont coûteux en temps d'exécution et nécessitent de large ensembles de données pour un entraînement efficace. De plus, la sécurité doit être prise en compte tout au long des phases de développement et de déploiement des véhicules autonomes.La première contribution de cette thèse améliore la localisation des véhicules en fusionnant les mesures des capteurs GPS et IMU avec une adaptation d'un filtre de Kalman, ES-EKF, et une réduction du bruit des mesures IMU. L'algorithme est déployé et testé en utilisant des données de vérité terrain sur un microcontrôleur. La deuxième contribution propose l'algorithme DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning), conçu pour faciliter le stationnement automatisé en accordant une attention toute particulière à la sécurité. Cet algorithme apprend à exécuter des manœuvres de stationnement optimales tout en naviguant entre des d'obstacles statiques et dynamiques grâce à un entraînement complet intégrant des données simulées et réelles. La troisième contribution est un framework de conduite urbaine de bout en bout appelé guided hierarchical reinforcement Learning (GHRL). Il intègre des données de vision et de localisation ainsi que des démonstrations d'experts exprimées avec des règles ASP (Answer Set Programming) pour guider la politique d'exploration de l'apprentissage par renforcement hiérarchique et accélérer la convergence de l'algorithme. Lorsqu'une situation critique se produit, le système s'appuie également sur des règles liées à la sécurité pour faire des choix judicieux dans des conditions imprévisibles ou dangereuses. GHRL est évalué sur le jeu de données NoCrash du simulateur Carla et les résultats montrent qu'en incorporant des règles logiques, GHRL obtient de meilleures performances que les algorithmes de l'état de l'art.