Thèse soutenue

Surmonter l'hétérogénéité dans les systèmes d'apprentissage fédéré

FR  |  
EN
Auteur / Autrice : Othmane Marfoq
Direction : Giovanni Neglia
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/12/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Frédéric Giroire
Examinateurs / Examinatrices : Giovanni Neglia, Frédéric Giroire, Peter Richtárik, Marc Tommasi, Martin Jaggi, Gauri Joshi
Rapporteurs / Rapporteuses : Peter Richtárik, Marc Tommasi

Résumé

FR  |  
EN

L'apprentissage fédéré, qui provient de l'anglais ``Federated Learning'' (FL), se présente comme un cadre facilitant l'apprentissage collaboratif de modèles d'apprentissage automatique par des clients géographiquement répartis sans divulguer leurs données locales. Cette thèse se concentre sur la prise en charge de l'hétérogénéité, un défi majeur dans le domaine de l'apprentissage fédéré. L'hétérogénéité se manifeste par des variations entre les ensembles de données locaux des clients (hétérogénéité statistique), des disparités dans les capacités de stockage et de calcul (hétérogénéité système), et des fluctuations dans les ensembles de données locaux au fil du temps (hétérogénéité temporelle). Cette thèse explore différentes sources d'hétérogénéité dans le contexte de l'apprentissage fédéré et propose des algorithmes pratiques pour atténuer l'impact de l'hétérogénéité.La première partie de la thèse se concentre sur la résolution des défis associés à l'hétérogénéité du système dans deux scénarios distincts : inter-silos et inter-appareils. Dans les environnements inter-silos, nous exploitons la théorie des systèmes linéaires dans l'algèbre max-plus pour modéliser le débit, c'est-à-dire le nombre de cycles complets par unité de temps, dans un système d'apprentissage fédéré entièrement décentralisé en inter-silos. Ensuite, nous proposons des algorithmes pratiques qui, en utilisant les caractéristiques mesurables du réseau, trouvent une topologie avec le débit le plus élevé ou avec des garanties de débit vérifiables. Dans les environnements inter-appareils, où les contraintes du système influencent la disponibilité et l'activité des clients, nous explorons différents niveaux de participation des clients, souvent présentant une corrélation au fil du temps et avec d'autres clients. Dans ce contexte, nous analysons un algorithme similaire à fedavg sous une disponibilité hétérogène et corrélée des clients. L'analyse met en évidence comment la corrélation affecte négativement le taux de convergence de l'algorithme et comment la stratégie d'agrégation peut atténuer cet effet, même au prix de diriger l'entraînement vers un modèle biaisé. Guidé par l'analyse théorique, nous proposons "Correlation-Aware FL" (CA-Fed), un nouvel algorithme FL qui tente d'équilibrer les objectifs contradictoires de maximiser la vitesse de convergence et de minimiser le biais du modèle. À cette fin, CA-Fed ajuste dynamiquement le poids attribué à chaque client et peut ignorer les clients avec une faible disponibilité et une forte corrélation.La deuxième partie traite de l'hétérogénéité statistique grâce à deux algorithmes de personnalisation dans l'FL. Le premier algorithme, appelé FedEM, repose sur une hypothèse souple selon laquelle l'ensemble de données de chaque client est généré à partir d'un mélange de distributions sous-jacentes communes inconnues. Le deuxième algorithme, appelé kNN-Per, combine un modèle global entraîné collectivement avec un modèle local de plus proches voisins (kNN) pour la personnalisation. Des garanties théoriques, notamment des bornes de convergence et de généralisation, sont fournies pour les deux algorithmes.La troisième partie explore l'apprentissage fédéré pour les flux de données, en considérant deux scénarios : des échantillons indépendants tirés d'une distribution inconnue et des distributions de données composées de mélanges de distributions sous-jacentes inconnues. Pour le premier scénario, un meta-algorithme est proposé, offrant des informations sur la configuration et le compromis entre le temps d'entraînement et le biais du modèle appris. Pour le deuxième scénario, une variante fédérée de la descente du miroir séquntielle, appelée FEM-OMD, est introduite, avec un regret asymptotiquement sous-linéaire dans le cas des modèles de mélange Gaussien.