Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment
Auteur / Autrice : | Khoder Jneid |
Direction : | Patrick Reignier, Stéphane Ploix |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 26/10/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de Grenoble (2007-....) |
CIFRE : Elichens | |
Jury : | Président / Présidente : Massih-Reza Amini |
Examinateurs / Examinatrices : Mohamed Benbouzid, Sihem Amer-Yahia | |
Rapporteur / Rapporteuse : Pierre de Loor, Romain Bourdais |
Mots clés
Résumé
Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette construction initiale de modèle est coûteuse et il est difficile de maintenir ces modèles au cours de la vie du bâtiment. Au cours de la thèse, nous étudions l'apprentissage par renforcement (RL) pour optimiser la consommation d'énergie des systèmes CVC tout en maintenant un bon confort thermique et une bonne qualité de l'air. Plus précisément, nous nous concentrons sur les algorithmes d'apprentissage par renforcement sans modèle qui apprennent en interagissant avec l'environnement (le bâtiment, y compris le système CVC) et qui ne nécessitent donc pas de modèles précis de celui-ci. En outre, les approches en ligne sont prises en compte. Le principal défi d'un RL sans modèle en ligne est le nombre de jours nécessaires à l'algorithme pour acquérir suffisamment de données et de retours d'actions pour commencer à agir correctement. L'objectif de cette thèse est d'accélérer l'apprentissage les algorithmes RL sans modèle pour converger plus rapidement afin de les rendre applicables dans les applications du monde réel, le contrôle du chauffage, de la ventilation et de la climatisation. Deux approches ont été explorées au cours de la thèse pour atteindre notre objectif : la première approche combine la RBC avec la RL basé sur la valeur, et la seconde approche combine les règles floues avec le RL basé sur la politique. La première approche exploite les règles RBC pendant l'apprentissage, tandis que dans la seconde, les règles floues sont injectées directement dans la politique. Les tests sont effectués sur un bureau simulé, réplique d'un bureau réeel dans le bâtiment de Grenoble INP pendant la période hivernale.