Apprentissage décentralisé en présence de systèmes hétérogènes
Auteur / Autrice : | Yara Zgheib |
Direction : | Marc Antonini, Roula Nassif |
Type : | Projet de thèse |
Discipline(s) : | Automatique traitement du signal et des images |
Date : | Inscription en doctorat le 01/10/2023 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis |
Mots clés
Mots clés libres
Résumé
Les téléphones mobiles, les dispositifs portables, les véhicules autonomes, les maisons intelligentes et les hôpitaux sont des exemples de réseaux distribués modernes générant chaque jour d'énormes quantités de données. En raison de la puissance de calcul croissante de ces dispositifs et de la taille croissante des ensembles de données, associées aux préoccupations concernant le partage de données privées, l'apprentissage fédéré et décentralisé de modèles statistiques est devenu souhaitable et souvent nécessaire. Dans ces approches, chaque appareil participant (appelé client, agent ou nud) dispose d'un ensemble de données d'entraînement local qui n'est jamais téléchargé sur le serveur. Les données d'entraînement sont conservées localement sur les appareils des utilisateurs, et les appareils sont utilisés comme agents effectuant des calculs sur leurs données locales afin de mettre à jour les modèles globaux d'intérêt. Aujourd'hui, de nombreuses industries et grandes entreprises (telles que Google, Apple, etc.) commencent à intégrer de telles technologies dans leurs produits. Par exemple, l'équipe de développement du clavier Gboard de Google utilise l'apprentissage fédéré pour former des modèles statistiques qui résolvent le problème de prédiction du mot suivant sur les téléphones mobiles. Dans les applications où la communication avec un serveur devient un goulot d'étranglement, les topologies décentralisées (où les agents ne communiquent qu'avec leurs appareils voisins) sont des alternatives potentielles aux topologies fédérées (où un serveur central se connecte à tous les appareils distants). Ce projet de thèse s'inscrit dans le vaste thème de l'apprentissage et de l'optimisation décentralisés sur les graphes. Il reconnaît la capacité croissante de nombreuses technologies émergentes à collecter des données de manière distribuée et en continu. Par conséquent, l'accent sera mis sur la conception d'approches décentralisées où les appareils collectent des données de manière continue et où les modèles de génération de données sous-jacents évoluent avec le temps. Le projet reconnaît également que les applications modernes d'apprentissage automatique (où d'énormes volumes de données d'entraînement sont générés en continu par un grand nombre d'appareils hétérogènes) présentent plusieurs propriétés clés qui les différencient des applications d'inférence distribuée standard. Une attention particulière sera accordée au développement et à l'étude d'approches pour l'apprentissage décentralisé dans des environnements statistiquement hétérogènes en présence de ressources de communication limitées et de dispositifs système hétérogènes. L'accent de la thèse sera spécifiquement mis sur l'illustration de l'intérêt des approches proposées dans les cadres d'apprentissage automatique à l'aide d'ensembles de données accessibles au public. La thèse se concentre sur le développement de nouvelles approches d'inférence décentralisée pour l'apprentissage à partir de données collectées de manière distribuée et continue. Alors que la plupart des approches d'apprentissage fédéré supposent un ensemble fixe de clients, chacun avec un ensemble de données local fixe, la thèse considère des paramètres où les appareils collectent des données de manière continue et où les modèles de génération de données sous-jacents évoluent avec le temps. Par conséquent, les solutions doivent être capables d'apprendre en continu à partir de données en streaming et de s'adapter aux changements de l'environnement.