Thèse en cours

Partage de données et protection de la vie privée

FR  |  
EN
Auteur / Autrice : Arsème Vadèle Djeufack nanfack
Direction : Gilles DequenGael Le mahec
Type : Projet de thèse
Discipline(s) : Informatique-25DIN0
Date : Inscription en doctorat le 03/10/2022
Etablissement(s) : Amiens
Ecole(s) doctorale(s) : École doctorale Sciences, technologie et santé (Amiens)
Partenaire(s) de recherche : Laboratoire : Modélisation, Information et Systèmes (Amiens ; 2008-....)

Résumé

FR  |  
EN

Dans le cadre du projet AP.RES, l'Université de Picardie Jules Verne et ses partenaires prévoient une extension de l'usage du numérique dans tous les aspects de la vie universitaire pour leurs personnels comme pour leurs étudiants. L'utilisation de ressources numériques implique intrinsèquement la collecte de nombreuses données personnelles de ses utilisateurs (étudiants comme enseignants) : Accès aux ressources (jours/heures de connexion, cours suivis, titre et nature des ressources) Localisation de la connexion (domicile, université, BU, tiers-lieux, …) Temps passé sur chaque ressource et parcours suivi entre les ressources Notes et évaluations (évaluations, auto-évaluations, QCM d'entraînement, …) Éventuelles suspicions de fraudes/plagiat Données textuelles (devoirs, questionnaires, …) Données socio-professionnelles (catégorie socio-professionnelle des parents, lycée d'origine, situation familiale, …) Données personnelles diverses (type du terminal de connexion - téléphone, tablette, ordinateur, âge, ville/pays de naissance, navigateur web, …) Afin de protéger les usagers, la loi réglemente fortement - et heureusement - l'accès, le croisement et l'utilisation de ces données. En l'état, les données brutes ne peuvent légalement être partagées en open data. Cependant l'analyse de ces données pourrait présenter un très fort intérêt scientifique tant du point de vue sociologique que pédagogique, au delà même des établissements partenaires du projet. Pour permettre ce partage, il faut garantir la préservation de la vie privée des utilisateurs ce que ne permet pas une simple anonymisation/pseudonymisation. Les techniques du Privacy Preserving Data Publishing (PPDP) [1,2,3] permettraient de mettre à disposition de la communauté scientifique l'ensemble des données personnelles recueillies tout en donnant des garanties objectives et chiffrées du respect de la vie privée des usagers. Le k-anonymat [4] permet par exemple de protéger les utilisateurs contre la divulgation d'identité (un utilisateur ne peut être distingué d'un groupe de k utilisateurs) quand la l-diversité [5] permet de les protéger contre la divulgation d'attributs (la probabilité de déduire une information sur l'utilisateur diminue proportionnellement avec la croissance de la valeur de l) Des travaux récents au sein du laboratoire MIS [6,7,8] ont montré, que le choix des métriques de perte d'information, la conception des hiérarchies sémantiques, les stratégies de constructions et les modèles de représentation des données anonymisées permettent de construire des bases de données présentant de fortes garanties sur la protection de la vie privée tout en maintenant une précision suffisante pour les techniques de fouille et d'analyse des données (data mining, apprentissage, …)