Thèse soutenue

Optimisation de l'utilité des données lors d'un processus de k-anonymisation

FR  |  
EN
Auteur / Autrice : Clémence Mauger
Direction : Gilles Dequen
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/12/2021
Etablissement(s) : Amiens
Ecole(s) doctorale(s) : École doctorale Sciences, technologie et santé (Amiens)
Partenaire(s) de recherche : Laboratoire : Modélisation, Information et Systèmes (Amiens ; 2008-....)
Jury : Président / Présidente : Michaël Krajecki
Examinateurs / Examinatrices : Gaël Le Mahec, Claire Delaplace, Mathieu Cunche
Rapporteurs / Rapporteuses : Maryline Laurent, Benjamin Nguyen

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Pour donner des garanties de protection de la vie privée aux bases de données anonymisées, des modèles d'anonymisation ont vu le jour ces dernières décennies. Parmi ceux-ci, on peut citer la k-anonymité, la l-diversité, la t-proximité ou encore la confidentialité différentielle. Dans cette thèse, je me suis intéressée au modèle de k-anonymité à travers une analyse approfondie des manières de produire des bases remplissant ces critères de confidentialité tout en optimisant l'utilité des données. Partant d'une base de données, on peut en effet construire plusieurs versions k-anonymes de cette base. Certaines de ces versions k-anonymes comportent moins de modifications des données que les autres et maintiennent ainsi une meilleure utilité des données lors de leur publication. Mes travaux proposent une étude de l'optimisation de l'utilité des données lors du processus de k-anonymisation d'une base. Dans un premier temps, j'ai étudié des métriques de perte d'information permettant d'estimer la quantité d'information perdue dans une table lors d'un processus de k-anonymisation. Les métriques ont été utilisées dans un algorithme de k-anonymisation pour guider les fusions de classes d'équivalence menant à la production d'une table k-anonyme. J'ai tâché de dégager de cette étude des caractéristiques dans les définitions des métriques de perte d'information permettant de produire des tables k-anonymes de bonne qualité au regard de plusieurs critères. Dans un second temps, je me suis intéressée à la répartition des données sensibles dans les tables k-anonymes grâce aux modèles de l-diversité et de t-proximité. Plus précisément, j'ai proposé des stratégies d'optimisation mêlant métrique de perte d'information, l-diversité et t-proximité à utiliser dans un algorithme de k-anonymisation. L'objectif a été de maintenir de bons niveaux de l-diversité et de t-proximité dans les tables k-anonymes produites sans sacrifier l'utilité des données. Dans un troisième temps, je suis revenue sur la formulation du problème de k-anonymisation d'une table. Je me suis appuyée sur une nouvelle notion, les groupes de généralisation, pour énoncer le problème de k-anonymisation d'une table en fonction de la matrice d'incidence d'un hypergraphe. Grâce à cette nouvelle représentation, j'ai proposé une procédure ainsi que cinq algorithmes permettant de construire une table k-anonyme par partitionnement des classes d'équivalence d'une table k'-anonyme avec k'>= k. Des expérimentations menées sur deux tables publiques ont montré que les algorithmes proposés surpassent les performances de l'algorithme de k-anonymisation utilisé précédemment en termes de préservation d'information