Protection des données à caractère personnel dans les services énergétiques

par Franklin Leukam Lako

Projet de thèse en Informatique, données, IA

Sous la direction de Maryline Laurent.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec SAMOVAR - Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux (laboratoire) et de R3S (equipe de recherche) depuis le 01-10-2017 .


  • Résumé

    Les services énergétiques ont de plus en plus recours à des algorithmes pour permettre aux clients d'échanger de l'énergie avec leurs voisins dans une architecture de microgrids, proposer de nouveaux services multi-domaines, optimiser l'énergie des foyers ou la stabilité des réseaux électriques. Ces algorithmes reposent sur le partage de données avec des voisins ou une tierce partie, par exemple le gestionnaire de réseau. Ces données peuvent être des données de consommation et de production, ou encore les données relevées par des objets déployés au sein d'un foyer. Hors, ces données ont un caractère personnel (ces données sont appelées « Données à caractère personnel » ou DCP), et sont donc sensibles. Par exemple, les données de consommation énergétique peuvent donner des informations sur les activités des occupants d'une maison : elles permettent de déduire leur présence ou absence, le nombre d'occupants, leur âge, leur religion, leurs habitudes. Le développement d'algorithmes de NALM (Non-intrusive Appliance Load Monitoring), qui décomposent la consommation énergétique globale en une séquence d'allumage et d'extinction d'appareils, est un pan de recherche actif [1], [2], [3]. La littérature propose plusieurs types d'algorithmes d'agrégation de données énergétiques respectueux de la vie privée [4], [5], [6]. En général, les données énergétiques utilisées par ces algorithmes correspondent à des courbes de charge, c'est-à-dire des séries temporelles de la consommation énergétique, et utilisent des méthodes comme du chiffrement partiellement homomorphe, du calcul multipartite sécurisé ou de la confidentialité différentielle pour garantir la protection des données personnelles. Ces techniques apportent différentes garanties : - le chiffrement partiellement homomorphe et le calcul multipartite sécurisé garantissent que personne ne peut accéder aux données d'un client particulier ; - la confidentialité différentielle garantit qu'un résultat final tel que l'agrégat d'un ensemble de données de différents clients, ne révèle pas d'informations individuelles sur les clients. Ces techniques sont complémentaires dans le sens où le chiffrement partiellement homomorphe et le calcul multipartite sécurisé garantissent qu'aucune entité intervenant dans un calcul ne peut accéder aux DCP propres à chaque client, tandis que la confidentialité différentielle garantit que le résultat final obtenu (en clair) ne permet pas de faire fuiter d'autres informations que le résultat lui-même. Les agrégations respectueuses de la vie privée sont en général des traitements spécifiques et peu évolués : moyennes et partitionnement de courbes de charge. En effet, les techniques comme le chiffrement complètement homomorphe, qui permettraient d'implémenter des traitements évolués tout en protégeant les DCP des clients, restent encore trop coûteuses à mettre en œuvre. Le cas qui nous intéresse est différent, puisque le but n'est pas simplement de faire des moyennes ou du partitionnement, mais d'aboutir à des algorithmes d'optimisation énergétique respectueux de la vie privée. L'objectif des travaux de thèse est de concevoir des solutions permettant d'intégrer la protection des DCP dans les algorithmes d'optimisation énergétique existants tout en limitant les coûts associés (calculs, bande passante). Les travaux de thèse pourront se dérouler en 4 étapes : 1. Etat de l'art sur les techniques de protection des DCP, en particulier, l'analyse de la confidentialité différentielle et de ses limites en matière de protection contre la ré-identification, mais aussi le chiffrement partiellement homomorphe, le calcul multipartite sécurisé. 2. Etude des algorithmes d'optimisation énergétique et choix d'un algorithme sur lequel intégrer la protection des DCP. Cette étape visera également à définir des modalités de validation précise, permettant de quantifier le coût de l'introduction de la protection des DCP en matière de perte de précision et d'impact sur les performances des algorithmes. 3. Conception et validation d'une première approche avec l'intervention d'un tiers. Ce tiers réalise l'optimisation énergétique, mais ne doit pas obtenir les DCP des clients. L'objectif est de protéger les DCP de chaque client vis-à-vis des autres clients et du tiers, en utilisant du calcul multipartite sécurisé ainsi que de la confidentialité différentielle. 4. Conception et validation d'une seconde approche avec l'intervention d'un tiers. Ce tiers n'est pas considéré de confiance, ni pour les DCP, ni pour gérer l'optimisation. Le but est donc d'arriver à un algorithme de réponse à la demande respectueux de la vie privée et vérifiable, pour garantir que le tiers ne favorise pas un foyer particulier. Une alternative est d'arriver à un algorithme décentralisé, c'est-à-dire qui ne requiert pas de tiers pour arriver au résultat. Les résultats issus des étapes 3 et 4 seront validés sur les cas d'usages définis pendant la deuxième étape, et suivant les modalités de validation de cette étape. Les contributions seront valorisées dans des conférences et journaux scientifiques de haut niveau.

  • Titre traduit

    Personal data protection in energy services


  • Résumé

    The objective is to improve optimization algorithms for energy services by integrating privacy-preserving approaches to avoid any personal data leakage, while limiting the resource consumption (computations, bandwidth). First, the candidate will make a state of the art on privacy technical approaches (differential privacy, partial homomorphic encryption, secure multiparty computing). Secondly, they will study and select an energy optimization algorithm of interest and will decide which validation methodology is appropriate for quantifying both the loss of accuracy and performances. Third, they will design and validate a first approach with a third party trusted for performing the energy optimization, but not for accessing the customers' personal data. Secure multiparty computing and differential privacy will be used. Fourth, they will design and validate a second approach with a third party untrusted for both performing the energy optimization, and accessing the customers' personal data. The objective is to get an on-demand privacy-preserving and verifiable algorithm (to avoid the party to favor a specific customer). An alternative is to design a decentralized algorithm which does not require any third entity. Detailed objectives: - State of the art about privacy protection techniques. The main envisioned techniques are the following: differential privacy and its limits against re-identification attacks; partially homomorphic encryption ; secure multiparty computation. - Analysis of energy optimization algorithms, and choice of an algorithm to enhance. This step also aims at defining validation metrics, concerning the loss of accuracy and the performance cost of privacy protection. - Design and validation of a first approach relying on a third-party. This third party can realize the energy optimization, but must not obtain clients' personal data. The objective is to protect the clients' personal data against other client and against the third party, by using secure multiparty computation and differential privacy. - Design and validation of a second approach relying on a third-party. This third-party is not trusted regarding either the handling of personal data or the computation of the optimization. The goal is thus to design a verifiable and privacy-preserving optimization algorithm, to guarantee that the third-party cannot favor a precise client, or penalize another. Another possibility is to design a completely decentralized algorithm, that is an algorithm which does not rely on a third party. Context: Energy services tend to rely on algorithms in order to allow clients to exchange energy with their neighbors in microgrids, to propose new multi-domain services, to optimize energy consumption or to stabilize the power grid. These algorithms rely on households' data, which is shared across districts or with utilities. For instance, this data can comprise electrical consumption or production, or data collected by connected things operating inside a house. However, this data is personal data, and are thus sensible. For instance, energy consumption data can give information about a household's activity: it allows to deduce the presence or absence of the family, the number of occupants, their age, their religion, or more broadly their habits. The development of NALM algorithms (Non-intrusive Appliance Load Monitoring), which decompose the global energy consumption of a household into a sequence of switches of appliances, is an active research domain [1], [2], [3]. The literature proposes many privacy-preserving aggregation algorithms for energy data [4], [5], [6]. Usually, these algorithms rely on time-series data about the energy consumption, and use methods such as partially Homomorphic encryption, secure multiparty computation or differential privacy to protect the users' privacy. These techniques guarantee different properties: - partially homomorphic encryption and secure multiparty computation guarantee that no one gets access to a single user's data; - differential privacy guarantees that the final result, such as the aggregate of multiple clients' data, does not give individual information about users. These techniques are complementary: partially homomorphic encryption and secure multiparty computation guarantee that no entity can access any data other than the final result, which is then publicly accessible. On the contrary, differential privacy guarantees that the final result gives little information about individual users. Privacy-preserving aggregations are often specific and simple computations: means, simple classification of time-series. Indeed, techniques such as fully homomorphic encryption are still too costly to implement complex privacy-preserving computations. In this thesis, the goal is not to compute simple means or classifications, but to get privacy-preserving energy optimization algorithms.