Thèse soutenue

Guider la recherche arborescente pour la résolution de problèmes industriels : apprentissage par renforcement et méthodes de Monte Carlo

FR  |  
EN
Auteur / Autrice : Valentin Antuori
Direction : Marie-José HuguetEmmanuel Hebrard
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 08/07/2022
Etablissement(s) : Toulouse, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications
Partenaire(s) de recherche : Laboratoire : LAAS - Laboratoire d'Analyse et d'Architecture des Systèmes - Laboratoire d'analyse et d'architecture des systèmes / LAAS
Jury : Président / Présidente : Vincent T'kindt
Examinateurs / Examinatrices : Anastasia Paparrizou, Sylvie Thiebaux
Rapporteurs / Rapporteuses : Louis-Martin Rousseau, Marc Sevaux

Résumé

FR  |  
EN

La résolution de nombreux problèmes de recherche opérationnelle et plus spécifiquement de problèmes d'optimisation combinatoire, s'appuie sur des algorithmes de recherche arborescente. Dans un contexte industriel, il est fréquent que les problèmes combinatoires traités soient de très grande taille et/ou qu'on ne dispose seulement que d’un faible budget temporel à consacrer à leurs résolutions. Dès lors l'exploration complète de l’arbre de recherche est impossible, et la qualité d’une méthode arborescente repose alors sur sa capacité à s'orienter rapidement vers les zones de l’espace de recherche les plus prometteuses.Il est fréquent qu'un même problème doive être résolu de manière périodique, tout en intégrant de légères variations. Il apparaît alors que la conception d’une heuristique pour guider la recherche arborescente peut passer par l’apprentissage automatique. Il semble aussi possible d'utiliser un modèle d'apprentissage, entraîné sur un ensemble de données, sur de nouvelles données qui n'auraient que très peu varier.De plus, une telle approche permettrait de spécialiser les heuristiques en entraînant le même modèle sur plusieurs ensembles de données issus de contextes différents pour un même problème. Cet apprentissage qui se fait en amont de la résolution peut également être combiné à un mécanisme d’apprentissage lors de la résolution du problème. Un tel mécanisme permet à l’algorithme une adaptation au problème plus précise encore.Dans ce manuscrit nous nous intéressons à l'apport de méthodes d'apprentissage par renforcement et de méthodes de Monte Carlo pour la résolution de problèmes d’optimisation combinatoire issus de besoins industriels. Plus particulièrement, nous proposons deux approches dont le but est de guider l’exploration d’un arbre de recherche. La première approche consiste à concevoir une heuristique basée sur une combinaison linéaire de critères pertinents pour le problème, critères pouvant provenir de connaissances métier. Les poids de cette combinaison linéaire sont réglés via un algorithme d’apprentissage par renforcement, et l’heuristique obtenue est intégrée dans un algorithme de recherche arborescente. La seconde approche est une recherche arborescente de Monte Carlo combinée avec une recherche en profondeur d’abord. Le but est alors de découvrir, par l'expérience, quelle partie de l’arbre explorer. Ces deux approches peuvent être combinées et sont suffisamment génériques pour être adaptées aux deux problèmes industriels que nous étudions dans ce manuscrit. Le premier problème concerne la planification du déplacement de chariots pour transporter des pièces dans un atelier d’assemblage tout en respectant les cadences de production. Le second est un problème de chargement de camions en logistique amont comportant des contraintes liées à l’ordre de passage chez les fournisseurs et aux réglementations sur l’équilibre de la charge aux essieux. Pour ces deux problèmes les approches proposées surpassent les méthodes utilisées dans l’entreprise.