Thèse soutenue

Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment

FR  |  
EN
Auteur / Autrice : Khoder Jneid
Direction : Patrick ReignierStéphane Ploix
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/10/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (2007-....)
CIFRE : Elichens
Jury : Président / Présidente : Massih-Reza Amini
Examinateurs / Examinatrices : Mohamed Benbouzid, Sihem Amer-Yahia
Rapporteur / Rapporteuse : Pierre de Loor, Romain Bourdais

Résumé

FR  |  
EN

Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette construction initiale de modèle est coûteuse et il est difficile de maintenir ces modèles au cours de la vie du bâtiment. Au cours de la thèse, nous étudions l'apprentissage par renforcement (RL) pour optimiser la consommation d'énergie des systèmes CVC tout en maintenant un bon confort thermique et une bonne qualité de l'air. Plus précisément, nous nous concentrons sur les algorithmes d'apprentissage par renforcement sans modèle qui apprennent en interagissant avec l'environnement (le bâtiment, y compris le système CVC) et qui ne nécessitent donc pas de modèles précis de celui-ci. En outre, les approches en ligne sont prises en compte. Le principal défi d'un RL sans modèle en ligne est le nombre de jours nécessaires à l'algorithme pour acquérir suffisamment de données et de retours d'actions pour commencer à agir correctement. L'objectif de cette thèse est d'accélérer l'apprentissage les algorithmes RL sans modèle pour converger plus rapidement afin de les rendre applicables dans les applications du monde réel, le contrôle du chauffage, de la ventilation et de la climatisation. Deux approches ont été explorées au cours de la thèse pour atteindre notre objectif : la première approche combine la RBC avec la RL basé sur la valeur, et la seconde approche combine les règles floues avec le RL basé sur la politique. La première approche exploite les règles RBC pendant l'apprentissage, tandis que dans la seconde, les règles floues sont injectées directement dans la politique. Les tests sont effectués sur un bureau simulé, réplique d'un bureau réeel dans le bâtiment de Grenoble INP pendant la période hivernale.