Thèse soutenue

Fuite de données par les réseaux de neurones

FR  |  
EN
Auteur / Autrice : Ganesh Del Grosso Guzman
Direction : Catuscia PalamidessiJuan Pablo Piantanida
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 07/11/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau, Essonne) - Laboratoire d'informatique de l'École polytechnique [Palaiseau] / LIX
Jury : Président / Présidente : Daniel Augot
Examinateurs / Examinatrices : Catuscia Palamidessi, Juan Pablo Piantanida, Sonia Ben Mokhtar, Mark Dras, Georg Pichler, Michaël Perrot, Giovanni Cherubin
Rapporteurs / Rapporteuses : Sonia Ben Mokhtar, Mark Dras

Résumé

FR  |  
EN

Il a été démontré que les modèles d'apprentissage automatique peuvent divulguer des informations sur leurs ensembles d'apprentissage. Il s'agit d'un problème critique lorsque les données d'apprentissage sont de nature sensible, par exemple dans les applications médicales où les données appartiennent à des patients.Une approche populaire pour mesurer la fuite d'informations des modèles de Machine Learning (ML) consiste à effectuer des attaques d'inférence contre les modèles. L'objectif de cette approche est de mesurer la confidentialité du système en fonction de sa robustesse aux attaques par inférence. Ces attaques sont principalement classées en attaques d'inférence de membres (MIA) et en attaques d'inférence d'attributs (AIA). L'objectif d'une MIA est de déterminer si un échantillon ou un groupe d'échantillons fait partie de l'ensemble d'apprentissage du modèle, tandis qu'une AIA tente de déduire ou de reconstruire un échantillon à partir du modèle d'apprentissage.Bien qu'il existe d'autres méthodes pour mesurer la confidentialité en ML, comme la confidentialité différentielle, cette thèse se concentre principalement sur les attaques par inférence.Tout d'abord, nous dérivons des limites théoriques sur le taux de réussite d'un attaquant. Ce résultat fournit une limite supérieure à la probabilité de succès d'une attaque par inférence dans le cas spécifique où l'attaquant a accès aux paramètres du modèle entraîné, et donc dans tout autre scénario où l'attaquant possède moins d'informations. Deuxièmement, nous dérivons des limites qui relient l'écart de généralisation d'un modèle ML au taux de réussite d'un attaquant contre ce modèle. Troisièmement, nous établissons une liste de résultats qui relient l'information mutuelle entre le modèle entraîné et son ensemble d'entraînement à l'écart de généralisation et au taux de réussite d'un attaquant.Ces résultats théoriques sont illustrés à l'aide d'un scénario fictif. La limite inférieure reliant l'écart de généralisation au taux de réussite est testée et comparée à l'état de l'art des MIA dans un scénario plus réaliste.Quatrièmement, nous utilisons notre cadre pour décrire un ensemble d'AIA et tester leur efficacité par rapport à un modèle formé pour classer des chiffres manuscrits. L'ensemble de données contient l'identité des auteurs et nous l'utilisons comme information sensible à déterminer par les AIA.Cinquièmement, nous comparons les performances des différentes stratégies de MIA à celles des modèles de classification d'images les plus récents. Nous décrivons et classons les stratégies existantes dans l'état de l'art. Nous explorons l'utilisation de techniques de détection de distribution et de mesures de diversité pour les MIA et comparons leur efficacité à l'état de l'art. Nous proposons également une technique basée sur la norme de la perturbation minimale nécessaire pour qu'un modèle modifie sa prédiction à l'aide d'une attaque contradictoire. Nous montrons empiriquement que le fait d'avoir accès à des échantillons supplémentaires pouvant être utilisés comme données d'entraînement pour l'attaquant n'offre pas d'avantage par rapport aux stratégies qui ne nécessitent pas de données supplémentaires. Nous classons les différentes stratégies en fonction de leurs performances par rapport aux modèles de classification d'images les plus récents.