Méta-apprentissage pour le training décentralisée sur dispositif ReRAM
| Auteur / Autrice : | Matilde Piccoli |
| Direction : | Damien Querlioz, Elisa Vianello |
| Type : | Projet de thèse |
| Discipline(s) : | Electronique, Photonique et Micro-Nanotechnologies |
| Date : | Inscription en doctorat le 01/10/2024 |
| Etablissement(s) : | université Paris-Saclay |
| Ecole(s) doctorale(s) : | École doctorale Electrical, optical, bio-physics and engineering |
| Partenaire(s) de recherche : | Laboratoire : Centre de Nanosciences et de Nanotechnologies |
| Equipe de recherche : Nanoélectronique | |
| Référent : Faculté des sciences d'Orsay |
Mots clés
Résumé
Méta-apprentissage pour l'apprentissage décentralisé sur les dispositifs ReRAM : Ma thèse vise à co-optimiser les techniques de méta-apprentissage et de programmation matérielle afin de mettre en uvre l'apprentissage sur puce sur les dispositifs ReRAM. Les algorithmes d'IA de pointe présentent deux points critiques : - Centralisation : L'infrastructure matérielle utilisée pour l'apprentissage de l'IA est centralisée, ce qui impose le partage des données et des modèles et expose à des cyberrisques et à des problèmes de droits numériques. - Inefficacité : Le calcul dans les algorithmes d'IA est inefficace, entraînant une consommation énergétique importante pour l'apprentissage de grands modèles sur toute nouvelle tâche simple, principalement en raison du déplacement des données de la mémoire vers l'unité de traitement à chaque itération. La question principale est donc de savoir comment parvenir à un calcul véritablement local dans l'apprentissage de l'IA et quel pourrait être l'impact des algorithmes de décentralisation sur l'infrastructure et la propriété de l'IA. Objectives: 1. Pour implémenter l'apprentissage sur puce sur les dispositifs ReRAM : a. L'implémentation de l'algorithme MAML (Model-Agnostic Meta-Learning) permet d'obtenir une grande précision lors de l'apprentissage sur puce tout en limitant le nombre d'opérations par dispositif (c'est-à-dire en évitant de solliciter l'endurance du dispositif). b. L'optimisation du méta-apprentissage en fonction des caractéristiques spécifiques de la plage de conductance multiniveau fournie par les pondérations codées en ReRAM. c. L'implémentation d'alternatives à la rétropropagation basées sur les perturbations, permettant de réduire l'écart entre calcul et mémoire et d'exploiter la même limitation de bruit du dispositif pour effectuer la mise à jour du gradient avec un minimum de calculs externes. d. L'évaluation des différentes techniques de perturbation intégrables à la configuration MAML et les plus adaptées aux dispositifs ReRAM (notamment la perturbation basée sur l'activité (ANP) et la perturbation du gradient (GP)). 2. Réaliser un codage de pondérations multiniveaux par réseau neuronal avec un bruit de conductance plus faible sur les dispositifs ReRAM : a. En analysant l'effet du bruit et de la limitation de portée de la conductance multiniveau sur la précision de la classification. b. En explorant différentes méthodes de programmation des dispositifs ReRAM en combinant des résistances pour coder un niveau de pondération unique et en utilisant des algorithmes de programmation avec comptabilisation des erreurs. 3. Quantifier l'impact à long terme de la décentralisation dans l'infrastructure d'IA : a. En étudiant comment l'infrastructure d'IA actuelle repose sur la centralisation. b. En analysant comment la confidentialité des données et des modèles dans l'apprentissage en périphérie pourrait modifier les droits numériques et la propriété de l'IA, quantifiés en termes de propriété des algorithmes et des données, et de localisation des calculs.