Thèse soutenue

Apprentissage automatique distribué robuste et respectueux de la vie privée

FR  |  
EN
Auteur / Autrice : Rania Talbi
Direction : Sara Bouchenak
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 19/11/2021
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Institut national des sciences appliquées (Lyon ; 1957-....)
Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Equipe de recherche : DRIM - Distribution, Recherche d'Information et Mobilité
Jury : Président / Présidente : Lionel Brunie
Examinateurs / Examinatrices : Sara Bouchenak, Lionel Brunie, Benjamin Nguyen, Marc Tommasi, Lydia Chen
Rapporteur / Rapporteuse : Benjamin Nguyen, Marc Tommasi

Résumé

FR  |  
EN

Avec l’omniprésence des services numériques, d’´énormes quantités de données sont continuellement générées et collectées. Les algorithmes d’apprentissage automatique (ML) permettant d’extraire des connaissances précieuses à partir de ces données et ont été appliqués dans de nombreux domaines, tels que l’assistance médicale, le transport, la prédiction du comportement des utilisateurs, et bien d’autres. Dans beaucoup de ces applications, les données sont collectées à partir de différentes sources et un entraînement distribué est nécessaire pour apprendre des modèles globaux sur ces données. Néanmoins, dans le cas de données sensibles, l'exécution d'algorithmes ML traditionnels sur ces données peut conduire à de graves violations de la vie privée en divulguant des informations sensibles sur les propriétaires et les utilisateurs des données. Dans cette thèse, nous proposons des mécanismes permettant d'améliorer la préservation de la vie privée et la robustesse dans le domaine de l'apprentissage automatique distribué. La première contribution de cette thèse s'inscrit dans la catégorie d'apprentissage automatique respectueux de la vie privée basé sur la cryptographie. De nombreux travaux de l'état de l'art proposent des solutions basées sur la cryptographie pour assurer la préservation de la vie privée dans l'apprentissage automatique distribué. Néanmoins, ces travaux sont connus pour induire d'énormes coûts en termes de temps d'exécution et d'espace. Dans cette lignée de travaux, nous proposons PrivML, un framework externalisé d'apprentissage collaboratif basé sur le chiffrement homomorphe, qui permet d'optimiser le temps d'exécution et la consommation de bande passante pour les algorithmes ML les plus utilisés, moyennant de nombreuses techniques telles que le packing, les calculs approximatifs et le calcul parallèle. Les autres contributions de cette thèse abordent les questions de robustesse dans le domaine de l'apprentissage fédéré. En effet, l'apprentissage fédéré est le premier framework à garantir la préservation de la vie privée par conception dans le cadre de l'apprentissage automatique distribué. Néanmoins, il a été démontré que ce framework est toujours vulnérable à de nombreuses attaques, parmi lesquelles nous trouvons les attaques par empoisonnement, où les participants utilisent délibérément des données d'entraînement erronées pour provoquer une mauvaise classification au moment de l'inférence. Nous démontrons que les mécanismes de mitigation de l'empoisonnement de l'état de l'art ne parviennent pas à détecter certaines attaques par empoisonnement et nous proposons ARMOR, un mécanisme de mitigation de l'empoisonnement pour l'apprentissage fédéré qui parvient à détecter ces attaques sans nuire à l'utilité des modèles.