Thèse soutenue

Systèmes avancés de clustering et d'aide à la décision pilotés par l'IA pour la gestion intelligente de l'énergie

FR  |  
EN
Auteur / Autrice : Loup-Noé Lévy
Direction : Soufian Ben AmorGuillaume Guérard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/06/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire d’informatique parallélisme réseaux algorithmes distribués (Saint-Quentin en Yvelines, Yvelines ; 2015-....)
référent : Université de Versailles-Saint-Quentin-en-Yvelines
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Nahid Emad Petiton
Examinateurs / Examinatrices : Dritan Nace, Olivier Flauzac, Isis Truck, Marc Bui
Rapporteurs / Rapporteuses : Dritan Nace, Olivier Flauzac

Résumé

FR  |  
EN

Cette thèse aborde le clustering de systèmes énergétiques complexes et hétérogènes au sein d'un système d'aide à la décision (SAD).Dans le chapitre 1, nous explorons d'abord la théorie des systèmes complexes et leur modélisation, reconnaissant les bâtiments comme des Systèmes Complexes Sociotechniques. Nous examinons l'état de l'art des acteurs impliqués dans la performance énergétique, identifiant notre cas d'étude comme le Tiers de Confiance pour la Mesure et la Performance Énergétique (TCMPE). Face à nos contraintes, nous nous focalisons sur le besoin d'un système d'aide à la décision pour fournir des recommandations énergétiques, le comparant aux systèmes de supervision et de recommandation et soulignant l'importance de l'explicabilité dans la prise de décision assistée par IA (XAI). Reconnaissant la complexité et l'hétérogénéité des bâtiments gérés par le TCMPE, nous argumentons que le clustering est une étape initiale cruciale pour développer un SAD, permettant des recommandations sur mesure pour des sous-groupes homogènes de bâtiments.Dans le Chapitre 2, nous explorons l'état de l'art des systèmes semi-automatisés pour la prise de décisions à haut risque, mettant l'accent sur la nécessité de gouvernance dans les SAD. Nous investiguons les régulations européennes, mettant en lumière le besoin d'exactitude, de fiabilité, et d'équité de notre système décisionnel, et identifions des méthodologies pour adresser ces besoins, telles que la méthodologie DevOps et le data lineage. Nous proposons une architecture distribuée du SAD qui répond à ces exigences et aux défis posés par le Big Data, intégrant un datalake pour la manipulation des données hétérogènes et massive, des datamarts pour la sélection et le traitement spécifiques des données, et une ML-Factory pour peupler une bibliothèque de modèles. Différentes méthodes de Machine Learning sont sélectionnées pour les différents besoins spécifiques du SAD.Le Chapitre 3 se concentre sur le clustering comme méthode d'apprentissage automatique primaire dans notre cas d'étude, il est essentiel pour identifier des groupes homogènes de bâtiments. Face à la nature plurielle - numérique, catégorielle, séries temporelles - des données décrivant les bâtiments, nous proposons le concept de clustering complexe. Après avoir examiné l'état de l'art, nous identifions la nécessité d'introduire des techniques de réduction de dimensionnalité, associé à des méthodes de clustering numérique et mixte état de l'art. La Prétopologie est proposée comme approche novatrice pour le clustering de données mixtes et complexes. Nous soutenons qu'elle permet une plus grande explicabilité et interactivité, en permettant un clustering hiérarchique construit sur de règles logiques et de notions de proximité adaptées au contexte. Les défis de l'évaluation du clustering complexe sont abordés, et des adaptations de l'évaluation des jeux de donnée numérique sont proposées.Dans le chapitre 4, nous analysons les performances computationnelles des algorithmes et la qualité des clusters obtenus sur différents jeux de données variant en taille, nombre de clusters, distribution et nombre de dimensions. Ces jeux de donnée sont publique, privées ou généré pour les tests. La Prétopologie et l'utilisation de la réduction de dimensionnalité montrent des résultats prometteurs comparés aux méthodes de clustering de données mixtes de l'état de l'art.En conclusion, nous discutons des limitations de notre système, y compris les limites d'automatisation du SAD à chaque étape du flux de données. Nous mettons l'accent sur le rôle crucial de la qualité des données et les défis de prédire le comportement des systèmes complexes au fil du temps. L'objectivité de nos méthodes d'évaluation de clustering est questionnée en raison de l'absence de vérité terrain. Nous envisageons des travaux futurs, tels que l'automatisation de l'hyperparamètrisation et la continuation du développement du SAD.