Thèse soutenue

Publication d'un ensemble de données ensemblistes : renforcer le schéma de dissociation pour améliorer à la fois la protection de la vie privée et l'utilité

FR  |  
EN
Auteur / Autrice : Nancy Awad
Direction : Laurent PhilippeJean-François CouchotBechara Al Bouna
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/09/2020
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : FEMTO-ST : Franche-Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (Besançon) - Franche-Comté Électronique Mécanique- Thermique et Optique - Sciences et Technologies (UMR 6174) / FEMTO-ST
Site de préparation : Université de Franche-Comté (1971-....)
Jury : Président / Présidente : Benjamin Nguyen
Examinateurs / Examinatrices : Laurent Philippe, Jean-François Couchot, Bechara Al Bouna, Benjamin Nguyen, Sébastien Gambs, Mohamed Nassar
Rapporteurs / Rapporteuses : Benjamin Nguyen, Sébastien Gambs

Résumé

FR  |  
EN

La protection de la vie privée des individus est un principe indispensable d’un point de vue éthique et légal. La publication, la fouille ou l’extraction des connaissances issues des données, doivent être contrôlées par des techniques d’anonymisation qui protègent les identités des individus participants aux données et le lien avec leurs informations personnelles qui peuvent être des données sensibles. Les techniques d’anonymisation servent à modifier les données originales en créant une ambiguïté nécessaire pour protéger la vie privée. Plusieurs défis se présentent en anonymisant les données notamment celui d’optimiser le niveau d’anonymisation par rapport aux pertes d’informations résultantes. Cette dualité de caractère est investiguée et renforcée dans ce travail portant sur la technique de d’anonymisation dite de « Dissociation ».Cette thèse adresse la problématique d’anonymisation des données transactionnelles (set-valued data). Le travail porte sur une technique d’anonymisation proposée par Terrovitis et nommée « Dissociation », qui tient pour acquis que le processus ne change pas les valeurs des données ni ne supprime les données, contrairement à la confidentialité différentielle et le k-anonymat. Premièrement, l’utilité des informations dans un ensemble dissocié est investiguée. L’analyse probabiliste prouve que diverses associations dans un ensemble dissocié souffrent de disparaître. Afin de lutter contre cette perte tout en suivant le processus de dissociation, un ensemble d’associations qui doit être préservées, nommé « règles d’utilités », est considéré pour optimiser le regroupement des enregistrements et guidé par une technique basée sur le regroupement naturel des fourmis. Deuxièmement, la dissociation est étudiée dans le cadre des attaques de désanonymisation. Le « Cover problem » est un type d’attaque d’homogénéité, affectant les ensembles dissociés et défini dans la littérature grise. Une suppression partielle et un ajout du bruit sont utilisés pour modifier les associations engendrant un cover problem, résolvant celui-ci. La correction de la solution est prouvée, afin de s’assurer que tous les cover problem sont supprimés et aucun nouveau problème n’est généré.Enfin, le format final des données dissociées n’est pas un format commun pour une exploitation aisée dans des analyses de données et des algorithmes de machine learning (apprentissage). Il faut alors réexprimer les données anonymisées par Dissociation dans le format orignal des données transactionnelles. Une solution se basant sur la réassociation probabiliste dans chaque groupe d’enregistrements dissociés est proposée, sensible à la distribution probabiliste résultant de la Dissociation. Cette solution se repose sur une définition élaborée de voisinage de données, afin de justifier sa sensibilité et son respect des contraintes de protection de la vie privée. La fidélité de la solution, en termes d’utilité des données, est évaluée à travers les techniques d’analyse de données transactionnelles les plus exploitées : extraction/exploitation des associations et des règles d’association les plus fréquentes. Les résultats sont impressionnants en termes d’utilité des données et de la préservation de la vie privée.