Thèse soutenue

Gestion de stock sous contrainte de quantité minimale de commande multi-références

FR  |  
EN
Auteur / Autrice : Gaetan Deletoille
Direction : Sébastien Adam
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/06/2022
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Jury : Examinateurs / Examinatrices : Arnaud Knippel, Vincent T'kindt
Rapporteur / Rapporteuse : Safia Kedad Sidhoum, Jean-Philippe Gayon

Résumé

FR  |  
EN

Dans de nombreuses chaînes logistiques, il est courant que les fournisseurs imposent une quantité minimale d'achat à leurs acheteurs (par exemple sur la valeur totale de la commande), dans le but de diluer l'impact de leurs coûts fixes. Dans le cas où cet acheteur est lui même un revendeur, ce dernier est alors soumis à un problème d'optimisation de stock difficile: il doit d'un côté maintenir un stock suffisant pour satisfaire la demande (instable et non certaine) de ses clients, et de l'autre réduire ses coûts de stock, tout en respectant la contrainte de son fournisseur. C'est ce problème de prise de décision sous incertitude que nous avons cherché à résoudre au cours de cette thèse. Nous l'appelons \textit{problème de quantité minimale de commande multi-références}.Il existe plusieurs méthodes dans la littérature pour résoudre des versions simplifiées de ce problème, notamment lorsqu'une seule référence est concernée par la contrainte, ou lorsque la demande est supposée stationnaire. Cependant, aucune solution de l'état de l'art n'apportait jusqu'alors de réponse satisfaisante à la version multi-référence de ce problème, avec un inventaire soumis à une demande stochastique et variable dans le temps.Les principales contributions de cette thèse sont deux méthodes de résolution approximative de ce problème. La première est une heuristique que nous appelons la w-policy. Cette heuristique repose sur plusieurs approximations du comportement du système. Ces approximations, basées sur une analyse poussée du problème, permettent de réduire drastiquement la complexité du calcul des fonctions de valeur et d'en déduire une solution approximative. Cependant, en raison de ces hypothèses, la w-policy ne peut pas être appliquée dans certains cas particuliers. Dans le but de remédier à cette limite, nous avons développé une deuxième méthode que nous appelons la hybrid policy. Cette méthode combine des techniques issues de l'apprentissage par renforcement (notamment le deep Q-learning) avec certaines idées issues de la w-policy. Nous montrons la capacité de ces deux méthodes à résoudre efficacement le problème posé, en l'appliquant à des jeux de données réelles et simulées. Sur les versions de grande taille du problème (jusqu'à dix mille références), elles sont les seules aujourd'hui à apporter une solution calculable en un temps raisonnable.