Exploration de techniques d'apprentissage pour "Edge AI" exploitant les Resistive RAM

par Michele Martemucci

Projet de thèse en Electronique

Sous la direction de Sylvain Saïghi.


  • Résumé

    Le sujet de thèse proposé se situe à l'interface de deux domaines de l'électronique : l'implémentation d'accélérateurs matériels émulant des réseaux de neurones (Neural Network, NN) et la mise en œuvre de technologies mémoire résistives (RRAM). L'essor relativement récent et les résultats remarquables des réseaux de neurones artificiels sont dus à l'édification de gigantesques bases de données d'une part mais aussi à deux innovations algorithmiques: l'organisation topologique de grandes parties des réseaux en Convolutional Neural Network (CNN) qui permet de mutualiser très efficacement les synapses et donc de faire exploser la profondeur des réseaux (on parle de Deep NN, DNN) et l'apprentissage par rétro-propagation du gradient qui aboutit à une optimisation remarquable de la tâche de chaque couche au sein de l'intégralité du réseau. Les techniques logicielles susmentionnées ont assurément encore de beaux jours devant elles, cependant leur grande efficacité s'accompagne d'un besoin en ressources matérielles important dont il découle une consommation toute aussi conséquente. Et, comme il s'agit désormais d'embarquer l'IA dans divers objets connectés allant de l'implant médical à la voiture autonome, on comprend que les solutions algorithmiques et matérielles qui s'épanouissent dans les data centers ne pourront pas couvrir 100% des besoins en intégration d'IA. On comprend également que la recherche de solutions d'implémentation adaptées aux objets connectés et donc frugaux en énergie et ressources matérielles nécessite impérieusement une innovation algorithmique. Parallèlement à cela, le monde de la microélectronique œuvre depuis quelques années déjà au développement de technologies mémoires résistives dans le but d'intégrer de la mémoire non-volatile (Non-Volatile Memory) au sein des unités de calcul. Dans une architecture de processeur classique, une tel rapprochement entre les unités de calcul et la mémoire laisse espérer une grande simplification de la hiérarchie mémoire, mais aussi une explosion de la bande-passante entre calcul et donnée, la réduction des communications externes au processeur, etc. Néanmoins, l'usage de ces RRAM n'est pas aussi aisé et bon marché que les SRAM car leur comportement peut présenter non-linéarités, aléas, états intermédiaires et autres difficultés liées à la physique de ces composants exotiques. Or, si une approche d'apprentissage classique de NN se heurterait également aux imperfections des RRAM, il a été montré que d'autres algorithmes d'apprentissage peuvent au contraire s'avérer plus performant grâce à elles [1, 2]. Le CEA-LETI participant au développement de plusieurs technologies RRAM et proposant des solutions de co-intégration avec des technologies CMOS industrielles, cet institut offre la possibilité de développer une implémentation de NN dont l'apprentissage serait non pas impacté négativement mais facilité par l'usage de technologies RRAM. Dans la droite lignée de ce double constat, cette thèse ambitionne donc de tirer profit des technologies RRAM développées au LETI qui, associées à des circuits neuromorphiques analogiques ou mixtes, permettront non seulement l'embarquement basse consommation des tâches d'inférence mais également l'intégration efficace de processus d'apprentissage. Cette migration de l'inférence et de l'apprentissage des data centers à des dispositifs autonomes permettra leur adaptation à l'évolution des données d'entrée, la réduction de la taille du réseau, une spécialisation de chaque dispositif à son utilisateur, la rétention des données privées, un service plus rapide et ne nécessitant pas un accès au réseau [3]. Les objectifs de cette thèse seront donc d'étudier l'adéquation entre diverses pistes algorithmiques d'apprentissage de NN, les caractéristiques des différentes technologies NVM développées au LETI, les contraintes matérielles de l'électronique embarquée et les besoins d'une application de démonstration à déterminer puis de réaliser sur silicium un circuit de démonstration combinant donc RRAM et électronique intégrée classique. Cette offre de thèse est portée par deux instituts du CEA Grenoble : le LETI très axé « technologie du composant » et le LIST plus porté sur la conception électronique et informatique. Le doctorant sera donc doublement épaulé : des considérations algorithmiques jusqu'à la compréhension des phénomènes physiques en passant par l'architecture circuit, l'instrumentation de ces technologies innovantes, la conception mixte, etc. [1] G. Srinivasan, A. Sengupta, and K. Roy, “Magnetic Tunnel Junction Based Long-Term Short-Term Stochastic Synapse for a Spiking Neural Network with On-Chip STDP Learning,” Scientific Reports, vol. 6, pp. 29545–, Jul. 2016. [2] T. Dalgaty, et al. « In-situ learning using intrinsicmemristor variability via Markovchain Monte Carlo sampling », accepted to be pulished on Nature Electronics [3] “An All-Neural On-Device Speech Recognizer,” Google AI Blog. http://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html (accessed Nov. 25, 2020).

  • Titre traduit

    Exploring learning techniques for "Edge AI" taking advantage of Resistive RAM


  • Résumé

    The proposed thesis subject lies at the interface of two fields of electronics: the implementation of hardware accelerators emulating neural networks (NN) and the implementation of resistive memory technologies (RRAM). The relatively recent development and remarkable results of artificial neural networks are due to the construction of gigantic databases on the one hand but also to two algorithmic innovations: the topological organization of large parts of networks in Convolutional Neural Network (CNN) which makes it possible to share synapses very effectively and therefore to explode the depth of networks (we speak of Deep NN, DNN) and learning by back-propagation of the gradient which results in a remarkable optimization of the task of each layer within the entire network. The aforementioned software techniques certainly still have a bright future ahead of them, however their high efficiency is accompanied by a need for significant material resources which results in an equally substantial consumption. And, as it is by now a question of embedding AI in various connected objects ranging from medical implants to autonomous cars, we understand that the algorithmic and material solutions that flourish in data centers will not be able to cover 100 % of AI integration needs. We also understand that the search for implementation solutions adapted to connected objects and therefore frugal in energy and material resources absolutely requires algorithmic innovation. At the same time, the world of microelectronics has been working for several years now on the development of resistive memory technologies with the aim of integrating non-volatile memory (Non-Volatile Memory) within computing units. In a conventional processor architecture, such a rapprochement between the computation units and the memory lets hope for a great simplification of the memory hierarchy, but also an explosion in the bandwidth between computation and data, the reduction of communications external to the processor, etc. However, the use of these RRAMs is not as easy and cheap as SRAMs because their behavior can present non-linearities, hazards, intermediate states and other difficulties related to the physics of these exotic components. However, if a classical learning approach of NN would also come up against the imperfections of RRAMs, it has been shown that other learning algorithms can on the contrary prove to be more efficient thanks to them [1, 2]. The CEA-LETI is participating in the development of several RRAM technologies and offering co-integration solutions with industrial CMOS technologies, this institute offers the possibility of developing an implementation of NN whose learning would not be negatively impacted but facilitated by the use of RRAM technologies. In line with this double observation, this thesis therefore aims to take advantage of the RRAM technologies developed at LETI which, associated with analog or mixed neuromorphic circuits, will not only allow the low-power onboarding of inference tasks but also the effective integration of learning processes. This migration of inference and learning from data centers to autonomous devices will allow them to adapt to the evolution of input data, reduction in the size of the network, specialization of each device to its user, retention private data, faster service and not requiring network access [3]. The objectives of this thesis will therefore be to study the adequacy between various algorithmic tracks for learning NN, the characteristics of the different NVM technologies developed at LETI, the hardware constraints of on-board electronics and the needs of a demonstration application, to determine and then to produce a demonstration circuit on silicon thus combining RRAM and conventional integrated electronics. This thesis offer is supported by two CEA Grenoble institutes: the LETI very focused on "component technology" and the LIST more focused on electronic and computer design. The doctoral student will therefore be supported in two ways: from algorithmic considerations to the understanding of physical phenomena, including circuit architecture, the instrumentation of these innovative technologies, mixed design, etc. [1] G. Srinivasan, A. Sengupta, and K. Roy, “Magnetic Tunnel Junction Based Long-Term Short-Term Stochastic Synapse for a Spiking Neural Network with On-Chip STDP Learning,” Scientific Reports, vol. 6, pp. 29545–, Jul. 2016. [2] T. Dalgaty, et al. « In-situ learning using intrinsicmemristor variability via Markovchain Monte Carlo sampling », accepted to be pulished on Nature Electronics [3] “An All-Neural On-Device Speech Recognizer,” Google AI Blog. http://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html (accessed Nov. 25, 2020).