Thèse soutenue

Apprentissage continu et estimation du gradient inspirés de la biologie pour le calcul neuromorphique

FR  |  
EN
Auteur / Autrice : Axel Laborieux
Direction : Damien QuerliozLiza Herrera Diez
Type : Thèse de doctorat
Discipline(s) : Physique
Date : Soutenance le 06/10/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Electrical, optical, bio-physics and engineering
Partenaire(s) de recherche : Laboratoire : Centre de nanosciences et de nanotechnologies (Palaiseau, Essonne ; 2016-....)
référent : Faculté des sciences d'Orsay
Jury : Président / Présidente : Julie Grollier
Examinateurs / Examinatrices : Liza Herrera Diez, Emre Neftci, Daniel Brunner, Robert Legenstein
Rapporteurs / Rapporteuses : Emre Neftci, Daniel Brunner

Résumé

FR  |  
EN

Les algorithmes d’apprentissage profond permettent aux ordinateurs de réaliser des tâches cognitives allant de la vision à la compréhension du langage naturel avec une performance comparable à celle des humains. Bien que ces algorithmes s’inspirent conceptuellement du cerveau, leur consommation énergétique est supérieure par plusieurs ordres de grandeur. La raison de cette surconsommation énergétique est à la fois architecturale et algorithmique. L’architecture des ordinateurs sépare physiquement les unités de calcul et de mémoire où les données sont stockées. Cette séparation provoque un déplacement de données particulièrement intense et coûteux en énergie pour les algorithmes d’apprentissage machine, ce qui limite les applications embarquées ou à faible budget énergétique. Une solution consiste à créer de nouvelles architectures neuromorphiques où la mémoire est au plus près des unités de calcul. Cependant, les algorithmes d’apprentissage existants possèdent des limitations qui rendent leur implémentation sur puce neuromorphique difficile. En particulier, les limitations algorithmiques au cœur de cette thèse sont l’oubli catastrophique et l’estimation non locale du gradient. L’oubli catastrophique concerne l’impossibilité de conserver la performance d’un réseau de neurones lorsqu’une nouvelle tâche est apprise. Le calcul du gradient dans les réseaux de neurones est effectué par la Backpropagation. Bien qu’efficace, cet algorithme est difficile à implémenter sur une puce neuromorphique car il nécessite deux types de calculs distincts. Ces concepts sont présentés en détail dans le chapitre 1 de la thèse. Le chapitre 2 présente un algorithme inspiré de la métaplasticité synaptique pour réduire l’oubli catastrophique dans les réseaux de neurones binaires. Les réseaux de neurones binaires sont des réseaux de neurones artificiels avec des poids et activation binaires, ce qui les rend attrayants pour les applications neuromorphiques. L'entraînement des poids synaptiques binaires nécessitent des variables cachées dont la signification est mal comprise. Nous montrons que ces variables cachées peuvent être utilisées pour consolider les synapses importantes. La règle de consolidation présentée est locale à la synapse, tout en étant aussi efficace qu’une méthode d’apprentissage continue établie dans la littérature. Le chapitre 3 s’intéresse à l’estimation locale du gradient pour l’apprentissage. Equilibrium Propagation est un algorithme d’apprentissage qui ne nécessite qu’un seul type de calcul pour estimer le gradient. Toutefois, son passage à l’échelle sur des tâches complexes et architectures profondes restent à démontrer. Dans ce chapitre, résultant d’une collaboration avec le Mila, nous montrons qu’un biais dans l'estimation du gradient empêche ce passage à l’échelle, et nous proposons un nouvel estimateur non biaisé qui permet de passer à l’échelle. Nous montrons aussi comment adapter l’algorithme pour optimiser l’entropie croisée au lieu du coût quadratique. Enfin, nous étudions le cas où les connexions synaptiques sont asymétriques. Ces résultats montrent que Equilibrium Propagation est un algorithme prometteur pour l’apprentissage sur puce. Enfin, dans le chapitre 4, nous présentons une architecture pour implémenter des synapses ternaires à l’aide de mémoires résistives à base d’oxyde d’Hafnium en collaboration avec l’université d’Aix Marseille et le CEA-Leti de Grenoble. Nous adaptons un circuit initialement prévu pour implémenter un réseau de neurone binaire en montrant qu’une troisième valeur de poids synaptique peut être codée en exploitant le un régime où la tension d’alimentation est basse, ce qui est particulièrement adapté pour les applications embarquées. Les résultats présentés dans cette thèse montrent que la conception jointe des algorithmes et des architectures de calcul est cruciale pour les applications neuromorphiques.