Thèse soutenue

Programmation dynamique tropicale en optimisation stochastique multi-étapes

FR  |  
EN
Auteur / Autrice : Duy-Nghi Tran
Direction : Jean-Philippe Chancelier
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 11/12/2020
Etablissement(s) : Paris Est
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication
Partenaire(s) de recherche : Laboratoire : Centre d'enseignement et de recherche en mathématiques et calcul scientifique (Champs-sur-Marne, Seine-et-Marne) - Centre d'Enseignement et de Recherche en Mathématiques et Calcul Scientifique / CERMICS
Jury : Président / Présidente : Michel De Lara
Examinateurs / Examinatrices : Jean-Philippe Chancelier, William M. McEneaney, Alois Pichler, Marianne Akian, Welington De oliveira, Bernardo Freitas Paulo da Costa, Zheng Qu
Rapporteurs / Rapporteuses : William M. McEneaney, Alois Pichler

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans cette thèse on s'intéresse à la résolution par programmation dynamique de problèmes d'Optimisation Stochastique Multi-étapes (OSM).En première partie, on s'est intéressé à l'approximation des fonctions valeurs d'un problème OSM par des combinaisons dîtes min-plus ou max-plus linéaires de fonctions basiques. Cette approche s'interprète comme l'analogue en algèbre tropicale de modèles paramétriques en programmation dynamique approximatives, notamment étudiés par Bertsekas et Powell.Dans le cadre simplifié des problèmes d'optimisation multi-étapes déterministes, nous introduisons un algorithme, appelé Programmation Dynamique Tropical (PDT), qui construit itérativement des approximations des fonctions valeurs comme combinaisons min-plus ou max-plus linéaires. A chaque itération, une trajectoire d'états est tirée aléatoirement et les états formant cette trajectoire sont appelés points de raffinements. Compte tenu des approximations courantes des fonctions valeurs, PDT calcule alors récursivement en remontant dans le temps, une nouvelle fonction basique à ajouter à la combinaison min-plus ou max-plus linéaire courante. La fonction basique ajoutée à l'approximation au temps t doit vérifier deux conditions de compatibilité : elle doît être exacte au t-ème point de rafinement et valide. PDT évite ainsi de discrétiser l'espace d'état dans sa totalité et tente de s'émanciper du fléau de la dimension.Notre première contribution, dans le cadre de problèmes multi-étapes déterministes, est l'obtention de conditions suffisantes sur la richesse des points de raffinements afin d'assurer presque sûrement la convergence asymptotique des approximations générées vers les fonctions valeurs, en des points d'intérêts.En seconde partie, on a étendu le cadre de l'algorithme PDT aux problèmes stochastiques multi-étapes Lipschitz où les bruits sont finis et indépendants. Dans ce cadre, on génère simultanément des approximations max-plus linéaires et min-plus linéaires des fonctions valeurs. A chaque itération, lors d'une phase vers l'avant, une trajectoire déterministe d'état particulière appelée trajectoire problème-enfant est générée. Ensuite, lors du phase en arrière dans le temps, les approximations courantes sont raffinées en ajoutant des fonctions basiques qui sont exactes et valides.Notre seconde contribution est la preuve que l'écart entre combinaisons linéaires max-plus et min-plus ainsi générées tend vers 0 le long des trajectoires problèmes-enfants. Ce résultat généralise un résultat de Baucke, Downward et Zackeri de 2018 qui prouvait la convergence d'un schéma similaire, introduit par Philpott, de Matos et Zackeri en 2013, dans le cadre de problèmes OSM convexes. Toutefois, la complexité algorithmique de l'extension de PDT présentée dépend fortement de la taille du support des bruits d'un problème OSM donné. En troisième partie, on s'est intéressé à quantifier l'écart entre les valeurs de deux problèmes OSM ne différant que par leur arbre de scénarios. Sous hypothèses de régularités, Pflug et Pichler ont montré en 2012 que la valeur d'OSM est lipschitzienne par rapport à la Distance Imbriquée qu'ils ont introduite. Toutefois le calcul de la Distance Imbriquée nécessite le calcul d'un nombre exponentiel, en la taille de l'horizon, de problèmes de transport optimal. Motivé par le succès de l'algorithme de Sinkhorn pour calculer une relaxation entropique du problème de transport optimal, en troisième contribution nous proposons une relaxation entropique de la Distance Imbriquée que nous illustrons numériquement. En dernière partie, afin de justifier la résolution par programmation dynamique dans des cas plus généraux, des échanges entre intégration et minimisation doivent être justifiés. En quatrième contribution, nous établissons un résultat général d'échange entre intégration et minimisation qui englobe certains résultats usuels.