Thèse soutenue

Mesurer la confidentialité avec des métriques de discernabilité: définitions, mécanismes et confidentialité des informations liées à la localisation

FR  |  
EN
Auteur / Autrice : Nicolás E. Bordenabe
Direction : Catuscia PalamidessiKonstantinos Chatzikokolakis
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2014
Etablissement(s) : Palaiseau, Ecole polytechnique

Résumé

FR  |  
EN

La disponibilité croissante de smartphones et tablettes a donné lieu à l’élaboration d’une vaste classe de nouvelles applications, qui recueillent et analysent de grandes quantités d’informations sur leurs utilisateurs pour des raisons différentes: offrir un service personnalisé, offrir de la publicité ciblée, etc. Toutefois, le type et la quantité de données collectées ont engendres des graves préoccupations concernant la vie privée: en effet, ces données sont en général confidentielles par nature, et souvent, elles peuvent être liées à d’autres types d’informations sensibles. Afin de pallier à ces préoccupations, des garanties de confidentialité sont nécessaires. Differential privacy est l’une des notions de confidentialité les plus importantes dans le contexte des bases de données statistiques. Elle fournit une garantie formelle de confidentialité, assurant qu’aucune information sensible concernant des particuliers ne peut être facilement déduite par la divulgation des réponses aux questions globales. Si deux bases de données sont adjacentes, c’est à dire ne diffèrent que pour un individu, la requête ne devrait pas permettre de les distinguer par plus d’un certain facteur. Ceci induit une borne sur la discernabilité qui est déterminée par la distance sur le graphe de Hamming de la relation de contiguïté. Lorsque les informations sensibles à protéger ne sont pas les données relatives à un seul individu, ou lorsque les secrets se sont pas du tout les bases de données, il est courant de considérer les différentes notions de discernabilité, qui dépendent de l’application et de la garantie de confidentialité que nous voulons exprimer. Dans la première partie de cette thèse, nous explorons les implications de la differential privacy lorsque l’exigence d’indiscernabilité repose sur une notion arbitraire de la distance. Nous pouvons exprimer de cette façon les menaces contre la vie privée qui ne peuvent pas être représentées par la notion standard. Nous donnons des caractérisations intuitives de ces menaces en termes d’adversaires bayésiens. Nous revisitons les résultats connus sur les mécanismes universellement optimaux, et nous montrons que, dans notre contexte, ces mécanismes existent pour les requêtes somme, moyenne, et percentile. Dans la deuxième partie de cette thèse, nous introduisons le concept de géo-indiscernabilité, une notion formelle de confidentialité pour les systèmes basés sur la localisation. Cette définition est un cas particuliere de la version généralisée de la differential privacy présenté precedemment. Nous présentons aussi un mécanisme qui permet d’atteindre cette notion et nous étudions les différentes questions que pose la mise en œuvre, à savoir la troncature du résultat et l’effet de la précision de la machine. Nous décrivons également comment utiliser notre mécanisme pour améliorer les applications LBS avec des garanties de géo-indiscernabilité sans compromettre la qualité des résultats. Dans la dernière partie de cette thèse, nous considérons le méchanisme de Shokri et al, qui offre un compromis optimal entre la perte de qualité de service et la protection de la vie privée par rapport à un adversaire bayésien. Nous montrons qu’il est possible de combiner les avantages de cette approche avec la nôtre: étant donné un seuil minimal pour le degré de géo-indiscernabilité, nous construisons un mécanisme qui offre utilité maximale, en resolvant un problème d’optimisation linéaire. Puisque la géo-indiscernabilité est insensible à la reconfiguration d’un adversaire bayésien, ce mécanisme est également optimal dans le sens de Shokri et al. En outre, nous proposons une méthode pour réduire le nombre de contraintes du programme linéaire de cubique è quadratique, élargissant considérablement la taille des ensembles de localisations pour lesquels les mécanismes optimaux peuvent encore être calculés, tout en maintenant les garanties de confidentialité sans affecter significativement l’utilité du mécanisme généré.