Apprentissage par renforcement appliqué au revenue management des compagnies aériennes
Auteur / Autrice : | Giovanni Gatti Pinheiro |
Direction : | Jean-Charles Régin |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 08/09/2022 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Jean Martinet |
Examinateurs / Examinatrices : Jean-Charles Régin, Jean Martinet, Alain Dutech, Bruno Scherrer, Guillermo Gallego, Michaël Defoin Platel | |
Rapporteur / Rapporteuse : Alain Dutech, Bruno Scherrer, Guillermo Gallego |
Résumé
Inspiré par les récentes réussites de l'apprentissage par renforcement (RL), telles que le contrôle des champs magnétiques d'un tokamak ou l'obtention de performances supérieures à l'humain au jeu de Go et aux échecs, ce travail étudie des moyens d'appliquer le RL au domaine de recherche du revenue management (RM).Il existe de nombreux problèmes ouverts dans le domaine du RM qui reposent sur des heuristiques conçues par des experts. Cependant, ces heuristiques sont souvent difficiles à développer et à maintenir, et elles ne capturent qu'une fraction limitée des complexités inhérentes aux scénarios réels. Au lieu de cela, nous proposons d'aborder ces problèmes ouverts avec des méthodes RL génériques.Afin d'illustrer l'argument central de ce travail, nous choisissons d'aborder le problème du earning while learning (EWL), qui est l'un des nombreux problèmes ouverts dans le domaine du RM. Pour résoudre le problème du EWL, le système doit maximiser les revenus à long terme en optimisant les prix des billets d'avion tout en faisant face à un comportement de demande inconnu. Autrement dit, le système n'a pas accès à la façon dont la demande future réagira aux changements de prix, et il doit estimer le comportement de la demande à partir des données de réservation passées.Nous formalisons et concevons des interactions entre le système d'apprentissage et le comportement inconnu de la demande, puis un réseau de neurones artificiels (RNA) est entraîné avec un algorithme actor-critic pour résoudre le problème EWL. Le RNA entrainé, que nous appelons l'agent RL, réalise une meilleure performance de revenus que les méthodes heuristiques de pointe. Ensuite, nous discutons des moyens d'adapter l'agent RL pour résoudre d'autres problèmes pertinents dans RM, tels que la concurrence, l'auto-concurrence et le comportement non stationnaire de la demande. L'approche proposé met en évidence que la simplicité de l'agent RL, ainsi que sa capacité à résoudre des problèmes complexes, est un puissant atout inexploré.Les découvertes présentées dans ce travail suggèrent que le RL peut profondément transformer le domaine de RM. Les méthodes RL peuvent remplacer les systèmes RM par un système d'apprentissage générique de bout en bout qui est entraîné en offline pour résoudre de nombreux problèmes complexes. Par conséquent, les chercheurs et les analystes du RM n'auraient qu'à décrire formellement le comportement de la demande utilisé pour l'entraînement et à déléguer la recherche de solutions à l'agent RL. Ceci modifie l'orientation de la recherche de comment résoudre les problèmes vers quels problèmes doivent être résolus. Nous croyons qu'un tel changement de perspective peut accélérer considérablement le processus de recherche dans le domaine du RM.