Conception d'un système d'Intelligence Artificielle (Tensor Processing Unit - TPU) à très basse consommation basé sur le calcul dans la mémoire.
| Auteur / Autrice : | Emilien Taly |
| Direction : | Elena-Ioana Vatajelu |
| Type : | Projet de thèse |
| Discipline(s) : | Nano électronique et Nano technologies |
| Date : | Inscription en doctorat le 15/04/2021 |
| Etablissement(s) : | Université Grenoble Alpes |
| Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal |
| Partenaire(s) de recherche : | Laboratoire : Techniques de l'Informatique et de la Microélectronique pour l'Architecture des systèmes intégrés |
Mots clés
Résumé
Les récents développements de notre société ont donné naissance à de nouveaux domaines d'application (tels que l'intelligence artificielle-IA) qui nécessitent une efficacité informatique extrêmement importante avec de faibles ressources (par exemple, l'énergie). La mise en uvre de réseaux neuronaux matériels est un sujet d'actualité dans la recherche et il est désormais considérée comme stratégique pour plusieurs entreprises. En effet, l'intérêt récent autour des réseaux neuronaux profonds pour la reconnaissance des images a mis un nouveau coup d'intérêt sur l'ingénierie neuromorphique et le secteur de l'apprentissage profond est maintenant dominé par quelques géants industriels (Nvidia, Google, Intel...). Ils s'appuient généralement sur des General-Purpose Graphics Processing Units (GPGPU) pour le processus d'apprentissage, et sur du matériel spécialisé pour l'inférence à faible consommation d'énergie sur des cibles intégrées, dont l'efficacité énergétique est reconnue. Dans ce contexte, Google a développé le Tensor Processing Unit (TPU), qui est un circuit intégré spécifique à l'application de l'accélérateur IA (ASIC),développé spécifiquement pour l'apprentissage machine en réseau neuronal, notamment à l'aide du logiciel TensorFlow. Les algorithmes neuronaux considérés aujourd'hui sont essentiellement dérivés de deux domaines encore dissociés : l'apprentissage machine (utilisé par exemple pour l'analyse de données) et les neurosciences (qui cherchent à modéliser de manière plus réaliste le fonctionnement du cerveau). Des projets de premier plan en ingénierie neuromorphique, qui ont rapproché ces deux domaines, ont conduit à la création de puces puissantes inspirées par le cerveau, telles que TrueNorth ou SpiNNaker. Ces technologies fonctionnent bien dans les fermes informatiques centralisées mais dépassent les besoins de consommation d'énergie des systèmes embarqués. Le développement de ces applications stagne en raison des limites des architectures informatiques actuelles. En conséquence, le paradigme informatique a évolué vers des accélérateurs dédiés dans des nouvelle architectures innovantes. Le déplacement du calcul vers la mémoire (calcul centré sur les données) est un paradigme informatique émergent qui a montré (au niveau académique) un énorme potentiel en termes d'efficacité informatique globale. Ce paradigme informatique est également appelé 'calcul en mémoire' (CIM). Le paradigme de calcul centrée sur les données exige la conception et la mise en uvre de solutions matérielles dédiées aux accélérateurs IA pour faire face à la grande quantité de données à traiter avec une latence minimale. Néanmoins, des exigences strictes sur les caractéristiques non fonctionnelles de telles implémentations sont nécessaires pour avoir un produit utilisable et compétitif. Plus particulièrement, un noyau d'accélérateur IA doit répondre aux besoins suivants : réutilisabilité et polyvalence, très faible consommation d'énergie, haute précision, faible surface silicium, tout en permettant des opérations en parallèle. A l'heure actuelle, tous les accélérateurs IA matériels en production (TPU, Nervana, DGX, Inferencia, etc.) ou les IP disponibles pour l'intégration dans des circuits et systèmes spécialisés utilisent les techniques de conception et la technologie CMOS numérique classiques. Ceci s'explique car cette technologie sera encore pendant un temps certain la technologie d'intégration matérielle dominante, au vu de son coût de fabrication et de la maîtrise de la production industrielle, et par le fait que plusieurs outils de conception existent pour cela. Cependant, afin de réduire la consommation d'énergie (au moins 2x) et la latence (au moins 3x), une approche totalement différente doit être étudiée. Dans ce contexte, le paradigme du calcul en mémoire est une technique prometteuse qui minimise le transport des données, le principal goulot d'étranglement des performances et le coût énergétique de la plupart des applications gourmandes en données. Cette thèse profitera des avantages avérés du CIM pour concevoir un accélérateur d'IA à très faible consommation et s'articulera autour des axes suivants : la description de l'application cible, la mise en correspondance de l'application IA sélectionnée avec la solution CIM cible, la parallélisation de la solution et la mise en uvre de l'accélérateur basé sur le CIM.