Sur les compromis liés à l’apprentissage statistique sous contraintes de confidentialité
Auteur / Autrice : | Clément Lalanne |
Direction : | Aurélien Garivier, Rémi Gribonval |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 04/10/2023 |
Etablissement(s) : | Lyon, École normale supérieure |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Optimisation, Connaissances pHysiques, Algorithmes et Modèles |
Jury : | Président / Présidente : Élisa Fromont |
Examinateurs / Examinatrices : Aurélien Garivier, Rémi Gribonval, Élisa Fromont, Aurélien Bellet, Béatrice Laurent | |
Rapporteurs / Rapporteuses : Aurélien Bellet, Béatrice Laurent |
Résumé
Cette thèse étudie les compromis entre l’apprentissage statistique et la protection de la vie privée. D’une part, l’apprentissage, qui se définit comme l’estimation de quantités ou de tendances significatives à l’échelle d’une population en n’ayant accès qu’ à des observations échantillonnées de cette population, sera plus facile si l’on accorde un accès illimité aux données d’apprentissage. D’un autre côté, les données d’apprentissage peuvent être sensibles et leur utilisation sans restriction pourrait entraîner des problèmes de confidentialité. Le spectre des problèmes de s´ecurité et de confidentialité pouvant être très large, il est nécessaire de préciser le champ d’application de cette thèse. Dans la configuration considérée, les données sont agrégées par un seul acteur qui les utilise pour entraîner un modèle statistique (procédure d’estimation, réseau neuronal, . . . ). Ce modèle est ensuite partagé avec le monde entier. Le problème considéré est celui de l’inversion : est-il possible de briser la confidentialité des échantillons des données d’entraînement individuels par la seule observation du modèle entraîné ? Cette thèse étudie plusieurs problèmes d’apprentissage statistique lorsque l’estimateur considéré satisfait une propriété de confidentialité différentielle.