Apprentissage automatique décentralisé en systèmes hétérogènes.
Auteur / Autrice : | Gustavo Faia fagundes |
Direction : | Marc Antonini, Roula Nassif |
Type : | Projet de thèse |
Discipline(s) : | Automatique traitement du signal et des images |
Date : | Inscription en doctorat le 01/10/2024 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis |
Mots clés
Résumé
Le projet de thèse s'inscrit dans le thème général de l'apprentissage statistique décentralisé. Reconnaissant la tendance croissante à la collecte continue de données par des nuds (clients, appareils, etc.), l'accent sera mis sur le développement de méthodes capables de traiter efficacement les données continues et en temps réel. De plus, étant donné que les modèles de génération de données sous-jacents peuvent évoluer avec le temps, les approches développées devront s'adapter à ces changements pour garantir la robustesse et la précision du processus d'apprentissage. Les applications modernes d'apprentissage automatique impliquent souvent des sources de données et des systèmes hétérogènes. Le projet devra relever les défis liés à l'hétérogénéité statistique, en se concentrant sur le développement de techniques capables de gérer des distributions et des caractéristiques de données variées. La thèse prendra également en compte la diversité des dispositifs participant au processus d'apprentissage décentralisé, y compris les variations en termes de capacités de calcul, de contraintes de mémoire et de protocoles de communication. En se concentrant sur ces aspects, l'objectif de cette thèse est de développer des solutions pratiques et évolutives pouvant être appliquées aux applications d'apprentissage automatique réelles, répondant ainsi aux défis rencontrés dans les environnements de données distribuées modernes. En proposant une famille d'approches d'apprentissage décentralisées capables de gérer des environnements statistiques hétérogènes et des scénarios d'acquisition de données variés, la thèse vise à faire progresser l'état de l'art en matière d'apprentissage automatique décentralisé. Les approches développées permettront un apprentissage efficace et adaptatif dans des environnements dynamiques tout en répondant aux défis liés à l'hétérogénéité des données. De plus, les analyses et expériences menées tout au long de la thèse fourniront des informations précieuses sur le comportement et les performances des méthodes d'apprentissage décentralisé, contribuant ainsi à une meilleure compréhension de l'apprentissage automatique dans les environnements distribués. La prolifération des réseaux distribués modernes, tels que les téléphones mobiles, les objets connectés, les hôpitaux, les véhicules autonomes et les maisons intelligentes, a conduit à la génération quotidienne de quantités massives de données. Cet afflux de données, combiné aux préoccupations liées à la confidentialité et aux limitations du traitement centralisé des données, a conduit à l'adoption d'approches fédérées et décentralisées pour l'apprentissage de modèles statistiques. Dans ces approches, chaque appareil participant (appelé client ou agent) conserve un ensemble local de données d'entraînement qui n'est jamais téléchargé sur le serveur. Les données d'entraînement restent sur les appareils des utilisateurs, et ces appareils sont utilisés comme agents effectuant des calculs sur leurs données locales pour mettre à jour des modèles globaux d'intérêt. Cette approche permet d'entraîner des modèles sans centraliser les données sensibles, répondant ainsi aux préoccupations en matière de confidentialité tout en tirant parti des connaissances collectives présentes dans les ensembles de données distribués. De grandes entreprises comme Google et Apple ont commencé à intégrer ces technologies dans leurs produits et services. Par exemple, l'équipe de Gboard de Google utilise l'apprentissage fédéré pour améliorer la prédiction du mot suivant sur les appareils mobiles. Dans les applications où la communication avec un serveur devient un goulot d'étranglement, les topologies décentralisées (où les agents ne communiquent qu'avec les appareils voisins) sont des alternatives potentielles aux topologies fédérées, où un serveur central se connecte à tous les appareils distants. Contrairement aux approches traditionnelles d'apprentissage fédéré, qui supposent un ensemble fixe de clients avec des ensembles de données locaux statiques, la thèse reconnaît la nature dynamique de la collecte de données dans les environnements distribués modernes. Ici, les appareils collectent continuellement des données et les modèles de génération de données sous-jacents évoluent avec le temps. Par conséquent, les solutions proposées devront s'adapter à ces conditions dynamiques et apprendre en continu à partir de données en flux. De plus, dans les applications modernes d'apprentissage automatique, les appareils génèrent des données qui ne sont pas distribuées de manière identique en raison des variations de comportement des utilisateurs et de l'utilisation des appareils. Cela pose un défi, car les approches traditionnelles, qui supposent des données distribuées de manière identique, peuvent entraîner une mauvaise performance du modèle. La thèse se concentre sur les réseaux statistiques hétérogènes, où les distributions de données varient considérablement entre les appareils. Dans ces réseaux, les agents peuvent avoir besoin d'estimer et de suivre simultanément plusieurs tâches distinctes. Cela nécessite le développement d'algorithmes capables de gérer efficacement des scénarios d'apprentissage multitâche. Ces algorithmes doivent pouvoir s'adapter à la dynamique des tâches et ajuster les paramètres du modèle en conséquence. De plus, dans des contextes où les données étiquetées sont rares ou inexistantes pour certains appareils, l'apprentissage semi-supervisé devient essentiel. Les systèmes d'apprentissage semi-supervisé exploitent à la fois les données étiquetées et non étiquetées pour améliorer la performance du modèle. Le développement d'algorithmes d'apprentissage semi-supervisé efficaces qui utilisent efficacement les données non étiquetées est crucial pour de telles applications. Enfin, il est important de noter que la majorité des algorithmes d'optimisation fédérée restent proches des configurations centralisées, car ils nécessitent un coordinateur central. Dans les applications où la communication avec un serveur devient un obstacle, les topologies décentralisées constituent des alternatives potentielles aux topologies fédérées. La thèse se concentre sur le développement d'approches d'inférence décentralisées et reconnaît le défi associé à la conception de telles approches, où le comportement global doit émerger des interactions et des calculs locaux.