Thèse soutenue

Apprentissage par renforcement pour le pilotage énergétique de l'éclairage dans un bâtiment connecté

FR  |  
EN
Auteur / Autrice : Nassim Haddam
Direction : Dominique BarthBenjamin Cohen Boulakia
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/03/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Données et algorithmes pour une ville intelligente et durable (Versailles ; 2015-...) - Laboratoire d'innovation numérique pour les entreprises et les apprentissages au service de la compétitivité des territoires (Saint-Etienne-du-Rouvray, Seine-Maritime)
référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Jean-Michel Fourneau
Examinateurs / Examinatrices : Baya Lydia Boudjeloud-Assala, Abder Koukam, Lila Boukhatem, Latifa Oukhellou
Rapporteurs / Rapporteuses : Baya Lydia Boudjeloud-Assala, Abder Koukam

Résumé

FR  |  
EN

L'enjeu de cette thèse est de proposer et de valider des algorithmes permettant un pilotage énergétique intelligent capable de s'adapter aux usagers et leurs pratiques. Nous voulons contrôler spécifiquement l'éclairage d'une pièce dans laquelle l'usager peut interagir librement avec le système. Ceci nous a amené à concevoir un modèle simulant les réactions de l'usager face au changement du signal lumineux. Ce modèle n'est pas connu par l'algorithme de contrôle et sert uniquement à tester et à valider les algorithmes de contrôle que nous proposons. Le modèle de l'usager a les propriétés suivantes :- L'usager réagit souvent pour les valeurs faibles du signal et peu souvent pour les valeurs fortes du signal.- Les réactions de l'usager dépendent du passé (non-stationnarité) et elle est dominée par les expériences les plus récentes. - Si le signal a pris des valeurs faibles par le passé, l'usager aura tendance à réagir plus souvent que si le signal avait pris des valeurs fortes. Nous proposons des algorithmes capables de contrôler la lumière du bâtiment sans connaitre au préalable le modèle de l'usager. À cet effet, nous avons utilisé l'apprentissage par renforcement. Dans l'apprentissage par renforcement, un agent évolue dans un environnement donné et il veut effectuer une certaine tâche. L'agent apprend à effectuer cette tâche par essai et erreur en interagissant continuellement avec l'environnement. L'apprentissage par renforcement est à priori le seul modèle permettant d'optimiser un objectif donné sans connaissance de l'environnement.Dans cette thèse, nous étudions plusieurs paradigmes pour le système de contrôle dans lesquelles la décision de l'agent est modélisée de façon différente :- Le paradigme par choix de variation du signal dans lequel le choix du système porte sur la vitesse de baisse du signal et la valeur du signal sur laquelle il faut s'arrêter. Le contrôle concerne l'ensemble de la variation du signal.- Le paradigme par choix de valeur du signal dans lequel le choix de l'agent porte sur la valeur actuelle. L'agent choisit une valeur dans le voisinage de la valeur courante.Les contributions principales de cette thèse ont été de proposer des algorithmes d'apprentissage par renforcement afin de modéliser ces deux types de systèmes et de comparer les performances de ces algorithmes pour différents paramétrages de l'agent et de l'usager.Le paradigme par choix de variation du signal a été formulé avec l'apprentissage par renforcement sans états. Nous avons comparé les performances des algorithmes d'apprentissage par renforcement suivants : epsilon-greedy, LRI, LRP, la poursuite et la poursuite hiérarchique. Nous nous sommes intéressés spécifiquement à l'évolution au cours du temps de l'énergie, de la récompense, et de l'état de l'usager. Bien entendu, la vitesse de convergence et la qualité de convergence ont aussi été pris en compte.Le paradigme par choix de valeur du signal a été formulé avec l'apprentissage par renforcement basé sur les états. Nous avons étudié les performances des algorithmes les plus populaires : SARSA et Q-learning. La convergence des algorithmes, l'énergie consommée ainsi que la récompense et l'état de l'usager ont étés pris en compte dans cette comparaison.