Protocoles efficaces et robustes pour l'apprentissage automatique semi-décentralisé préservant la confidentialité
Auteur / Autrice : | César Sabater |
Direction : | Jan Ramon |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 20/06/2022 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille |
Jury : | Président / Présidente : Sonia Ben Mokhtar |
Examinateurs / Examinatrices : Christian Weinert | |
Rapporteur / Rapporteuse : Sonia Ben Mokhtar, Emiliano De Cristofaro |
Mots clés
Résumé
Ces dernières années, la préoccupation pour la protection de la vie privée s'est considérablement accrue. Cela s'explique par l'utilisation régulière de services qui nécessitent l'externalisation et le traitement massif de données personnelles, souvent sensibles. Pour cette raison, les mesures visant à réglementer la manipulation des données personnelles et à empêcher leur divulgation ont gagné en importance.Deux limitations importantes des algorithmes existants utilisés dans le domaine de l'apprentissage automatique sont qu'ils ne sont souvent pas robustes contre les attaques par collusion, et qu'un tiers de confiance est nécessaire pour (entre autres) effectuer une perturbation aléatoire permettant d'obtenir des garanties de confidentialité différentielle (differential privacy). Cette thèse vise à résoudre ces problèmes. Elle contient en particulier deux contributions majeures.La première contribution est un protocole décentralisé et sécurisé qui effectue une agrégation satisfaisant la confidentialité différentielle. Dans ce contexte, chaque partie possède ses propres données privées et souhaite calculer de manière collaborative une statistique, par exemple une moyenne, sans divulguer ses informations sensibles. Notre protocole est robuste aux attaques d'inférence par des parties en collusion et permet de vérifier l'exactitude des calculs. Il nécessite que chaque partie ne communique qu'avec un nombre logarithmique d'autres parties et permet d'obtenir des garanties de confidentialité différentielle avec une utilité presque équivalente au cas où l'on aurait recourt à un tiers de confiance.La deuxième contribution propose un protocole pour générer des nombres aléatoires dans un cadre de calcul multipartite de telle sorte que toutes les parties puissent vérifier que le nombre généré suit ladistribution de probabilité souhaitée et est effectivement pseudo-aléatoire, c'est-à-dire qu'aucun groupe de parties en collusion ne peut en fausser le caractère aléatoire. En particulier, nous considérons le tirage de nombres aléatoires publics (de sorte que toutes les parties puissent les voir), privés (de sorte qu'une seule partie puisse les voir) ou de manière cachée (de sorte qu'ils soient émis sous forme de parts secrètes et ne soient donc connus d'aucune des parties). Nous instancions nos méthodes de tirage de nombres aléatoires pour la distribution de Laplace et la distribution gaussienne. Comme sous-produit de notre approche pouvant avoir un intérêt en soi, nous proposons des algorithmes à divulgation nulle de connaissance pour vérifier les calculs transcendantaux tels que les fonctions logarithmique, trigonométrique et exponentielle.