Thèse en cours

Exploitation de la connaissance partielle du système en apprentissage par renforcement pour le contrôle d'admission et l'optimisation du stockage de l'électricité

FR  |  
EN
Auteur / Autrice : Lucas Weber
Direction : Ana Busic
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/09/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
établissement opérateur d'inscription : Ecole normale supérieure

Résumé

FR  |  
EN

Les coûts de calcul, la consommation d'énergie et les durées d'apprentissage limitent le déploiement de l'apprentissage par renforcement (RL). Alors que les algorithmes classiques sont génériques, intégrer des connaissances spécifiques aux problèmes traités peut améliorer les performances et l'efficacité de l'usage des données. Nous traitons trois problèmes - le contrôle d'admission dans des files d'attente, l'optimisation du stockage de l'électricité et l'accélération du calcul de la fonction de biais - et concevons des algorithmes qui exploitent leurs structures pour plus d'efficacité. Nous modélisons le contrôle d'admission comme une file d'attente $M/M/c/S$ avec $m$ classes de clients. Chaque client accepté génère une récompense et un coût de stockage spécifiques à sa classe. Les taux d'arrivée sont inconnus. Dans ce problème, des politiques optimales suivent une structure de seuil : un client est accepté si et seulement si le nombre total de clients dans le système est inférieur au seuil associé à sa classe. Les travaux précédents n'offrent qu'une convergence asymptotique vers une politique optimale en exploitant cette structure. Nous proposons un algorithme qui donne une borne sur l'espérance du regret pour un temps fini. Le terme dominant est $O(Slog T + sqrt{mTlog T})$, où $T$ est le temps total. L'algorithme exploite la structure de la file d'attente en apprenant les taux d'arrivée. Il suit le principe de l'optimisme face à l'incertitude et maximise la récompense moyenne pour le processus de décision Markovien (MDP) avec les taux d'arrivée plausibles les plus favorables. Les garanties sur le regret sont améliorées grâce à des bornes sur la fonction de valeur. Dans le problème d'optimisation du stockage d'électricité, nous considérons un consommateur avec une demande et une production stochastiques et une batterie. Il peut acheter ou vendre de l'électricité selon ses besoins et son utilisation de la batterie. La facture comprend des frais d'énergie, pour l'électricité achetée au réseau, et des frais de demande, proportionnels à la demande maximale du consommateur sur une période donnée (par exemple, un jour ou un mois). Les prix de l'électricité sont déterministes et dépendent de l'heure. Nous concevons un algorithme RL pour un modèle de batterie non linéaire. Il suppose l'existence d'un simulateur de batterie et décompose les transitions d'état en composantes stochastiques et déterministes pour effectuer une exploration hors ligne. Cela permet un apprentissage rapide avec peu de données. Cet algorithme est testé sur des données réelles. Enfin, nous nous concentrons sur l'accélération de l'estimation de la fonction de biais pour le critère de récompense moyenne. En supposant un MDP avec un espace d'états fini de taille $n$ et des valeurs propres de la matrice de transition connues à politique fixée, l'algorithme Policy Iteration requiert typiquement $O(n^3)$ opérations pour une évaluation exacte. À l'inverse, Modified Policy Iteration réduit les coûts en utilisant des approximations des fonctions de biais, nécessitant seulement $O(n^2)$ calculs par itération. Cette méthode est donc plus efficace pour les grands espaces d'état. Nous généralisons les algorithmes Relaxed Value Computation (RVC) et Momentum Value Computation (MVC) au cadre de la récompense moyenne en utilisant un opérateur de Bellman projeté, à condition que la chaîne de Markov sous-jacente soit réversible avec des valeurs propres connues. Sans accélération ni réversibilité, la distance de notre estimateur au point fixe est bornée par $O(min(|lambda_{min}|, |lambda_{max}|)^k)$, où $lambda_{min}$ et $lambda_{max}$ désignent respectivement la plus petite et la seconde plus grande valeur propre. Pour RVC et MVC sur une chaîne de Markov réversible, ces distances sont bornées respectivement par $O((1-kappa)/(1+kappa)^k)$ et $O((1-sqrt{kappa})/(1+sqrt{kappa})^k)$, avec $kappa = (1-lambda_{max}) / (1-lambda_{min})$.