Thèse en cours

Apprentissage fédéré: théories et méthodes

FR  |  
EN
Auteur / Autrice : Safwan Labbi
Direction : Éric Moulines
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 01/10/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : CMAP - Centre de Mathématiques appliquées
Equipe de recherche : RANDOPT - Randomized Optimisation

Résumé

FR  |  
EN

L'apprentissage fédéré a fait l'objet d'une attention particulière en tant qu'approche prometteuse de l'apprentissage automatique, permettant à plusieurs clients de collaborer à la formation de modèles tout en préservant la confidentialité et la sécurité des données [1-3] . Au lieu de partager des données brutes, les clients échangent des modèles partiellement entraînés et des statistiques calculées à partir de leurs ensembles de données locaux, en veillant à ce que les informations sensibles restent sous le contrôle de chaque client. Comparé au paradigme centralisé traditionnel, l'apprentissage fédéré offre des avantages indéniables [2, 4, 5]. Il aligne le consentement du client sur des tâches spécifiques en impliquant une participation active du client dans le processus de formation, fournit un niveau fondamental de protection de la vie privée et favorise un environnement plus participatif pour l'apprentissage automatique. En outre, la prévalence croissante de la portabilité des données et des réglementations en matière de protection de la vie privée, telles que le GDPR et le CCPA, souligne la nécessité potentielle d'adopter des approches d'apprentissage fédéré ; voir [6]. La collaboration entre les clients devient particulièrement intéressante dans les scénarios où l'ensemble des données combinées présente une hétérogénéité statistique substantielle. Par exemple, les entreprises de conduite autonome opérant dans divers lieux géographiques peuvent collecter des données spécifiques aux conditions météorologiques locales, tout en exigeant que leurs véhicules fonctionnent efficacement quelles que soient les conditions météorologiques. Dans de tels cas, le partage collaboratif des données entre des entreprises géographiquement dispersées devient mutuellement bénéfique. En tirant parti de l'apprentissage fédéré, ces entreprises peuvent collaborer et partager des données, ce qui permet de développer des modèles robustes capables de gérer différentes conditions météorologiques. L'apprentissage fédéré s'avère particulièrement avantageux lorsque les clients sont physiquement séparés et connectés par l'intermédiaire de réseaux ad hoc caractérisés par une latence élevée et une bande passante limitée. Cette situation se produit généralement lorsque les clients sont des appareils périphériques, tels que des téléphones mobiles et des capteurs IoT. Par conséquent, assurer une communication efficace devient crucial pour la mise en œuvre pratique de l'apprentissage fédéré. Cependant, c'est précisément dans ces circonstances de grande hétérogénéité des données et de contraintes de communication que l'état actuel de l'apprentissage fédéré est confronté à des défis. Dans le cas spécifique des communications sans fil, la mise en œuvre de l'apprentissage fédéré présente les avantages suivants : (1) l'échange de paramètres de modèles d'apprentissage automatique locaux au lieu de données d'apprentissage volumineuses peut économiser de l'énergie et consommer moins de ressources sans fil ; (2) l'apprentissage local des paramètres de modèles d'apprentissage automatique peut réduire efficacement la latence de transmission ; (3) l'apprentissage fédéré peut contribuer à améliorer la confidentialité des données puisque les données d'apprentissage restent sur les appareils des utilisateurs finaux et que seuls les paramètres de modèles d'apprentissage locaux sont téléchargés ; et (4) l'utilisation de différents processus d'apprentissage pour former des classificateurs multiples à partir d'ensembles de données marginaux augmente la possibilité d'obtenir des performances d'apprentissage plus élevées. Bien que l'apprentissage fédéré offre de nombreux avantages, plusieurs défis doivent être relevés pour en exploiter tout le potentiel. L'un des principaux défis consiste à développer des protocoles de communication efficaces adaptés à des environnements où la bande passante est limitée et le temps de latence potentiellement élevé. De nouvelles techniques sont nécessaires pour optimiser les mises à jour de modèles et les échanges statistiques entre les clients, tout en minimisant le temps de latence. et les échanges statistiques entre les clients, en minimisant la surcharge de communication. En outre, la résolution des problèmes liés à l'hétérogénéité des données reste un domaine de recherche important. Le développement de techniques qui techniques qui gèrent efficacement les variations dans les distributions de données, les représentations de caractéristiques et les caractéristiques statistiques parmi les clients est crucial pour obtenir des données précises et robustes. clients est crucial pour obtenir des modèles d'apprentissage fédérés précis et robustes. En outre, les mécanismes de préservation de la vie privée doivent être explorés plus avant afin d'améliorer la protection des informations sensibles pendant le processus d'apprentissage collaboratif. Les avancées futures devraient également se concentrer sur l'exploration de l'apprentissage fédéré dans d'autres domaines et sur l'étude de son extensibilité à d'autres domaines. domaines et l'étude de son évolutivité vers des déploiements à grande échelle.