Deep multi-agent reinforcement learning for dynamic and stochastic vehicle routing problems

Guillaume Bono

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage par renforcement multi-agent profond pour les problèmes de planification de tournées dynamiques et stochastiques

FR |

EN

Auteur / Autrice :	Guillaume Bono
Direction :	Olivier Simonin
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 28/10/2020
Etablissement(s) :	Lyon
Ecole(s) doctorale(s) :	École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche :	établissement opérateur d'inscription : Institut national des sciences appliquées (Lyon ; 1957-....)
	Laboratoire : CITI - Centre d'Innovation en Télécommunications et Intégration de services (Lyon, INSA) - CITI Centre of Innovation in Telecommunications and Integration of services / CITI
	Equipe de recherche : Robots coopératifs et adaptés à la présence humaine en environnements dynamiques
Jury :	Président / Présidente : René Mandiau
	Examinateurs / Examinatrices : Olivier Simonin, René Mandiau, François Charpillet, Romain Billot, Aurélie Beynier, Christian Wolf, Jilles Dibangoye, Laëtitia Matignon
	Rapporteurs / Rapporteuses : François Charpillet, Romain Billot

Mots clés

FR |

EN

Mots clés contrôlés

Transport -- Planification

Problème de tournées de véhicules

Transports urbains

Télécommunications

Mots clés libres

Optimisation dynamique

Prise de décision

Modèle de Markov

Réseaux de neurones

Architecture de réseaux

Apprentissage

Renforcement profond

Résumé

FR |

EN

La planification de tournées de véhicules dans des environnements urbains denses est un problème difficile qui nécessite des solutions robustes et flexibles. Les approches existantes pour résoudre ces problèmes de planification de tournées dynamiques et stochastiques (DS-VRPs) sont souvent basés sur les mêmes heuristiques utilisées dans le cas statique et déterministe, en figeant le problème à chaque fois que la situation évolue. Au lieu de cela, nous proposons dans cette thèse d’étudier l’application de méthodes d’apprentissage par renforcement multi-agent (MARL) aux DS-VRPs en s’appuyant sur des réseaux de neurones profonds (DNNs). Plus précisément, nous avons d’abord contribuer à étendre les méthodes basées sur le gradient de la politique (PG) aux cadres des processus de décision de Markov (MDPs) partiellement observables et décentralisés (Dec-POMDPs). Nous avons ensuite proposé un nouveau modèle de décision séquentiel en relâchant la contrainte d’observabilité partielle que nous avons baptisé MDP multi-agent séquentiel (sMMDP). Ce modèle permet de décrire plus naturellement les DS-VRPs, dans lesquels les véhicules prennent la décision de servir leurs prochains clients à l’issu de leurs précédents services, sans avoir à attendre les autres. Pour représenter nos solutions, des politiques stochastiques fournissant aux véhicules des règles de décisions, nous avons développé une architecture de DNN basée sur des mécanismes d’attention (MARDAM). Nous avons évalué MARDAM sur un ensemble de bancs de test artificiels qui nous ont permis de valider la qualité des solutions obtenues, la robustesse et la flexibilité de notre approche dans un contexte dynamique et stochastique, ainsi que sa capacité à généraliser à toute une classe de problèmes sans avoir à être ré-entraînée. Nous avons également développé un banc de test plus réaliste à base d’une simulation micro-traffic, et présenté une preuve de concept de l’applicabilité de MARDAM face à une variété de situations différentes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage par renforcement multi-agent profond pour les problèmes de planification de tournées dynamiques et stochastiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage par renforcement multi-agent profond pour les problèmes de planification de tournées dynamiques et stochastiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses