Compression et apprentissage fédéré : une approche pour l'apprentissage machine frugal
Auteur / Autrice : | Louis Leconte |
Direction : | Lionel Trojman, Éric Moulines, Van Minh Nguyen |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de l'ingénieur |
Date : | Soutenance le 05/06/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique, Signal et Image, Électronique et Télécommunication (Paris) |
Jury : | Président / Présidente : Florence D'Alché-Buc |
Rapporteurs / Rapporteuses : Karim Abed-Meraim, Aurélien Bellet |
Mots clés
Résumé
Les appareils et outils “intelligents” deviennent progressivement la norme, la mise en œuvre d'algorithmes basés sur des réseaux neuronaux artificiels se développant largement. Les réseaux neuronaux sont des modèles non linéaires d'apprentissage automatique avec de nombreux paramètres qui manipulent des objets de haute dimension et obtiennent des performances de pointe dans divers domaines, tels que la reconnaissance d'images, la reconnaissance vocale, le traitement du langage naturel et les systèmes de recommandation.Toutefois, l'entraînement d'un réseau neuronal sur un appareil à faible capacité de calcul est difficile en raison de problèmes de mémoire, de temps de calcul ou d'alimentation. Une approche naturelle pour simplifier cet entraînement consiste à utiliser des réseaux neuronaux quantifiés, dont les paramètres et les opérations utilisent des primitives efficaces à faible bit. Cependant, l'optimisation d'une fonction sur un ensemble discret en haute dimension est complexe et peut encore s'avérer prohibitive en termes de puissance de calcul. C'est pourquoi de nombreuses applications modernes utilisent un réseau d'appareils pour stocker des données individuelles et partager la charge de calcul. Une nouvelle approche a été proposée, l'apprentissage fédéré, qui prend en compte un environnement distribué : les données sont stockées sur des appareils différents et un serveur central orchestre le processus d'apprentissage sur les divers appareils.Dans cette thèse, nous étudions différents aspects de l'optimisation (stochastique) dans le but de réduire les coûts énergétiques pour des appareils potentiellement très hétérogènes. Les deux premières contributions de ce travail sont consacrées au cas des réseaux neuronaux quantifiés. Notre première idée est basée sur une stratégie de recuit : nous formulons le problème d'optimisation discret comme un problème d'optimisation sous contraintes (où la taille de la contrainte est réduite au fil des itérations). Nous nous sommes ensuite concentrés sur une heuristique pour la formation de réseaux neuronaux profonds binaires. Dans ce cadre particulier, les paramètres des réseaux neuronaux ne peuvent avoir que deux valeurs. Le reste de la thèse s'est concentré sur l'apprentissage fédéré efficace. Suite à nos contributions développées pour l'apprentissage de réseaux neuronaux quantifiés, nous les avons intégrées dans un environnement fédéré. Ensuite, nous avons proposé une nouvelle technique de compression sans biais qui peut être utilisée dans n'importe quel cadre d'optimisation distribuée basé sur le gradient. Nos dernières contributions abordent le cas particulier de l'apprentissage fédéré asynchrone, où les appareils ont des vitesses de calcul et/ou un accès à la bande passante différents. Nous avons d'abord proposé une contribution qui repondère les contributions des dispositifs distribués. Dans notre travail final, à travers une analyse détaillée de la dynamique des files d'attente, nous proposons une amélioration significative des bornes de complexité fournies dans la littérature sur l'apprentissage fédéré asynchrone.En résumé, cette thèse présente de nouvelles contributions au domaine des réseaux neuronaux quantifiés et de l'apprentissage fédéré en abordant des défis critiques et en fournissant des solutions innovantes pour un apprentissage efficace et durable dans un environnement distribué et hétérogène. Bien que les avantages potentiels soient prometteurs, notamment en termes d'économies d'énergie, il convient d'être prudent car un effet rebond pourrait se produire.