Thèse soutenue

Apprentissage par renforcement profond pour le problème de tournées de véhicules

FR  |  
EN
Auteur / Autrice : Ali Yaddaden
Direction : Michel Vasquez
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/11/2023
Etablissement(s) : IMT Mines Alès
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : EuroMov Digital Health in Motion - EuroMov - Digital Health in Motion / Euromov DHM
Jury : Président / Présidente : Christine Solnon
Examinateurs / Examinatrices : Michel Vasquez, Jin-Kao Hao, El-Ghazali Talbi, Rodolphe Giroudeau, Sébastien Harispe
Rapporteurs / Rapporteuses : Jin-Kao Hao, El-Ghazali Talbi

Résumé

FR  |  
EN

Les avancées récentes en apprentissage profond et par renforcement ont récemment conduit à des ruptures dans plusieurs domaines (e.g. jeu de Go, prédiction de structures protéiques, ChatGPT), atteignant dans certains contextes des performances suprahumaines. Les progrès amenés par ces domaines de l’Intelligence Artificielle invitent naturellement à étudier les approches à base de réseaux de neurones entraînés par renforcement pour aborder des problèmes complexes à forte combinatoire. Aujourd’hui, nombre de ces problèmes sont traités, de manière plus ou moins efficace et satisfaisante, par des approches de résolution reposant sur une définition chronophage proposée par des experts du domaine de la recherche opérationnelle.Dans ce contexte, cette thèse se concentre sur l’étude de l’apprentissage profond et par renforcement pour la résolution de deux problèmes d’optimisation combinatoire dits de tournées de véhicules (VRP) : le problème de tournées de véhicules avec contraintes de capacités (CVRP), et le problème de covoiturage (RHP). Le premier est un problème d’optimisation classique bien connu, tandis que le second est une variante plus récente impliquant de l’incertitude, e.g. durée des trajets. Notre ligne principale de recherche se concentre sur l’étude de solveurs reposants sur des réseaux de neurones profonds entraînés à l’aide de l’apprentissage par renforcement (algorithmes de type policy gradient et Deep Q-learning) sur de vastes jeux de données d’instances non résolues. Ces solveurs permettent entre autres de s’affranchir de la définition manuelle de méthodes de résolution et de déléguer cette tâche à un réseau de neurones profond. Le réseau estimera, par exemple, une probabilité conditionnelle utile pour la construction itérative d’une solution candidate, e.g. la probabilité que la visite d’un client spécifique, sachant une liste de clients déjà visités et la configuration du problème, nous approche de la tournée optimale. Nous étudions plus précisément dans nos travaux des architectures de réseaux de neurones basées sur le mécanisme d’attention. Ce dernier rend nos solveurs agnostiques à la taille des instances, ce qui nous permet d’étudier empiriquement leur capacité de généralisation, en particulier dans leur réutilisation sur des instances de VRP de nature ou de taille différentes de celles considérées lors des phases d’entraînement.Ce manuscrit est structuré autour de trois contributions. La première vise à étudier l’apport de l’apprentissage par transfert dans le cadre de la résolution de problèmes d’optimisation combinatoire par réseaux de neurones. Nous nous basons dans notre étude sur le transfert implicite de connaissances du problème de voyageur de commerce (TSP) vers le CVRP. L’objectif est d’étudier si un modèle entraîné pour résoudre un problème de VRP donné, peut être utilisé pour résoudre un autre problème similaire suite à l’application de quelques étapes d’entraînement supplémentaires. Dans la deuxième contribution, nous proposons une nouvelle méthode à deux phases impliquant des réseaux de neurones profonds et un algorithme de plus court chemin pour gérer la contrainte de capacité. Nous montrons à travers nos différentes expérimentations la compétitivité de cette méthode avec les approches neuronales de la littérature ainsi que les heuristiques classiques du CVRP. Pour notre dernière contribution, nous étudions l’apport des méthodes de résolution à base de réseaux de neurones profonds pour un problème de covoiturage incluant une dimension d’incertitude (caractère stochastique de l’observation des requêtes et de la durée de trajet). Nous proposons pour cela une approche neuronale à base d’apprentissage par renforcement, capable de traiter des nombres variables de requêtes et de véhicules. Nos résultats montrent l’efficacité d’une telle approche pour aborder ce type de problèmes.