Méthodes d'apprentissage machine pour la protection de la vie privée : mesure de leakage et design des mécanismes

par Marco Romanelli

Thèse de doctorat en Informatique, données, IA

Sous la direction de Catuscia Palamidessi et de Moreno Falaschi.


  • Résumé

    Ces dernières années, l'intelligence artificielle et l'apprentissage machine (ML) ont été de plus en plus présents dans d'innombrables aspects de notre vie quotidienne. Dans cette thèse de doctorat, nous étudions comment les notions de théorie de l'information et de ML peuvent être utilisées pour mieux mesurer et comprendre les informations divulguées par les données et/ou les modèles, et pour concevoir des solutions visant à protéger la confidentialité des informations partagées. Nous explorons d'abord l'application du ML pour estimer l'information leakage d'un système. Nous envisageons un scénario black-box dans lequel les éléments internes du système sont inconnus, ou trop compliqués à analyser, et les seules informations disponibles sont des paires de données input-output. Les travaux précédents se sont concentrés sur le comptage des fréquences pour estimer les probabilités conditionnelles d'input-output (frequentist approach), cependant cette méthode n'est pas précise lorsque le domaine des outputs possibles est large. Pour surmonter cette difficulté, l'estimation par ML de l'erreur du classificateur idéal (Bayes) a récemment été étudiée et sa précision supérieure, grâce à la capacité des modèles à apprendre la correspondance input-output, a été démontré. Cependant, la Bayes vulnerability ne convient que pour décrire des attaques one-try. Une mesure plus générale est la g-vulnerability, qui englobe plusieurs types d'adversaires, avec des objectifs et des capacités différents. Nous proposons donc une nouvelle approche basée sur la ML, qui repose sur le pre-processing des données, pour effectuer une estimation black-box de la g-vulnerability, en étudiant formellement la capacité d'apprentissage pour toutes les distributions de données et en évaluant les performances dans divers contextes expérimentaux. Dans la deuxième partie de cette thèse, nous abordons le problème de l'obscurcissement des informations sensibles tout en préservant leur utilité, et nous proposons une approche de ML inspirée du paradigme generative adversarial nets. L'idée est de mettre en place deux réseaux : le générateur, qui essaie de produire un mécanisme d'obscurcissement optimal pour protéger les données, et le classificateur, qui essaie de désobstruer les données. En laissant les deux réseaux se concurrencer, le mécanisme améliore son degré de protection, jusqu'à ce qu'un équilibre soit atteint. Nous appliquons notre méthode au cas de la location privacy, et nous effectuons des expériences sur des données synthétiques et sur des données réelles provenant de le dataset Gowalla. La performance du mécanisme d'obfuscation obtenu est évaluée en fonction de l'erreur de Bayes, qui représente l'adversaire le plus fort possible. Enfin, nous considérons que, dans les problèmes de classification, nous essayons de prévoir les classes en observant les valeurs des caractéristiques qui représentent les échantillons d'entrée. Les valeurs des classes et des caractéristiques peuvent être considérées respectivement comme des inputs secrètes et des outputs observables d'un système. Par conséquent, la mesure de information leakage d'un tel système est une stratégie permettant de distinguer les caractéristiques les plus et les moins informatives. La théorie de l'information peut être considérée comme un concept utile pour cette tâche, car le pouvoir de prédiction découle de la corrélation, c'est-à-dire de l'information mutuelle, entre les features et les labels. Nous comparons l'information mutuelle basée sur l'entropie de Shannon à celle basée sur la min-entropy de Rényi, tant du point de vue théorique qu'expérimental, en montrant qu'en général, les deux approches sont incomparables, dans le sens où, selon l'ensemble de données considéré, parfois la méthode basée sur l'entropie de Shannon surpasse celle basée sur la min-entropie de Rényi et parfois le contraire se produit.

  • Titre traduit

    Machine learning methods for privacy protection : leakage measurement and mechanisms design


  • Résumé

    In recent years, there has been an increasing involvement of artificial intelligence and machine learning (ML) in countless aspects of our daily lives. In this PhD thesis, we study how notions of information theory and ML can be used to better measure and understand the information leaked by data and / or models, and to design solutions to protect the privacy of the shared information. We first explore the application of ML to estimate the information leakage of a system. We consider a black-box scenario where the system’s internals are either unknown, or too complicated to analyze, and the only available information are pairs of input-output data samples. Previous works focused on counting the frequencies to estimate the input-output conditional probabilities (frequentist approach), however this method is not accurate when the domain of possible outputs is large. To overcome this difficulty, the estimation of the Bayes error of the ideal classifier was recently investigated using ML models and it has been shown to be more accurate thanks to the ability of those models to learn the input-output correspondence. However, the Bayes vulnerability is only suitable to describe one-try attacks. A more general and flexible measure of leakage is the g-vulnerability, which encompasses several different types of adversaries, with different goals and capabilities. We therefore propose a novel ML based approach, that relies on data preprocessing, to perform black-box estimation of the g-vulnerability, formally studying the learnability for all data distributions and evaluating performances in various experimental settings. In the second part of this thesis, we address the problem of obfuscating sensitive information while preserving utility, and we propose a ML approach inspired by the generative adversarial networks paradigm. The idea is to set up two nets: the generator, that tries to produce an optimal obfuscation mechanism to protect the data, and the classifier, that tries to de-obfuscate the data. By letting the two nets compete against each other, the mechanism improves its degree of protection, until an equilibrium is reached. We apply our method to the case of location privacy, and we perform experiments on synthetic data and on real data from the Gowalla dataset. The performance of the obtained obfuscation mechanism is evaluated in terms of the Bayes error, which represents the strongest possible adversary. Finally, we consider that, in classification problems, we try to predict classes observing the values of the features that represent the input samples. Classes and features’ values can be considered respectively as secret input and observable outputs of a system. Therefore, measuring the leakage of such a system is a strategy to tell the most and least informative features apart. Information theory can be considered a useful concept for this task, as the prediction power stems from the correlation, i.e., the mutual information, between features and labels. We compare the Shannon entropy based mutual information to the Rényi min-entropy based one, both from the theoretical and experimental point of view showing that, in general, the two approaches are incomparable, in the sense that, depending on the considered dataset, sometimes the Shannon entropy based method outperforms the Rényi min-entropy based one and sometimes the opposite occurs.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : École polytechnique. Bibliothèque Centrale.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.