Thèse en cours

Optimisation d'architecture de réseaux de neurones binaires pour calculs proche mémoire

FR  |  
EN
Auteur / Autrice : Haci-Yusuf Gundogan
Direction : Henri-Pierre Charles
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 02/10/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique
Partenaire(s) de recherche : Laboratoire : CEA Grenoble - LETI

Résumé

FR  |  
EN

L'intelligence proche capteur permet des gains x1000 en évitant la transmission de données, améliorant de fait la frugalité énergétique. Le paradigme du calcul proche mémoire (IMC) offre l'opportunité d'optimiser les architectures de traitement grâce à l'aide du déploiement de réseaux de neurones binarisés (poids et activations sur 1 bit). L'usage d'une arithmétique réduite impliquant des opérandes binaires (0/1, -1/+1, - 1/0/+1) a l'avantage de pouvoir exploiter au mieux l'IMC en combinant des fonctions logiques massivement parallélisées suivies d'un seuillage au titre de « produits scalaires binaires requantifiés ». Des briques matérielles développées au CEA exploitant ce type de co-conception algorithme/architecture permettent un gain énergétique de plusieurs ordres de grandeur (x100). Cette thèse s'appuyant sur ce concept de calcul vise à mettre au point un modèle de programmation innovant dédié, permettant une reconfiguration du réseau en fonction des besoins applicatifs. Pour profiter au mieux de la parallélisation des calculs et limiter les coûts d'accès mémoire tout en s'appuyant sur le graphe de calculs issu d'outils d'analyse de réseaux compatibles, le compilateur optimisera le séquençage des commandes et la répartition des calculs par rapport aux mémoires disponibles sur la cible matérielle. La complexité d'exécution estimée par ce μ-compilateur alimentera un algorithme de recherche automatique de topologie (Neural Architecture Search). Ce NAS aura pour tâche d'identifier la topologie compatible, offrant le meilleur compromis performance/conso. De cette façon, la versatilité de l'accélérateur IA basé sur des calculs en IMC sera décuplée de sorte à pouvoir répondre à des besoins applicatifs divers et variés. Les travaux réalisés dans cette thèse auront pour objectif de déboucher sur un environnement de programmation compatible avec une architecture matérielle développée par ailleurs, dans la continuité d'un projet Carnot (Smart-IMC). Alors que ce projet Carnot se concentre sur la conception d'une topologie de réseau figée, dédiée à une tâche d'inférence spatio-temporelle (typiquement de la reconnaissance de geste) ; l'objectif de cette thèse sera d'étendre les champs applicatifs possibles tout en s'appuyant sur les nœuds de calculs IMC existants. L'objectif final étant donc de pouvoir développer une solution d'accélérateur IA basé sur le paradigme de l'IMC et des réseaux de neurones binaires, davantage versatile en étendant ses cas d'usages. Le développement dans cette thèse d'une machine virtuelle permettant la simulation des briques matérielles reconfigurables servira d'outil en mesure d'estimer la complexité matérielle (consommation dynamique, latence) liée à l'exécution d'une certaine topologie de réseau sur ce type d'accélérateur en technologie IMC. Ceci permettra en outre d'alimenter un algorithme de recherche d'architecture automatique de réseau capable d'identifier les meilleures topologies pour une tâche d'inférence donnée. Par ailleurs, ce travail s'appuiera largement d'une part sur le savoir-faire développé au LIST avec la plateforme N2D2 pour une intégration du μ-compilateur dédié dans ce framework et d'autre part sur des travaux en cours réalisés dans le contexte d'une thèse CIFRE (co-encadré avec STMicroelectronics) portant sur la définition d'une méthodologie générique de recherche automatique de topologie (NAS). En outre, ce sujet s'intègre dans la continuité de projets en cours dont l'objectif est de concevoir des architectures de réseaux de neurones spécifiques à des tâches de réveil pour des capteurs d'image fonctionnant en mode always-on et dont la consommation est de l'ordre de 100μW. Les topologies de réseaux ciblées embarquent des éléments avancés de l'état de l'art (Conv2D, Conv3D, connections résiduelles, mécanismes d'attention et réseaux récurrents) à poids et activations fortement quantifiés. Par ailleurs, et du fait de l'émergence de topologies dont les couches sont fortement interconnectées, le domaine d'exploration des topologies devient de plus en plus large Les projets en cours exploitant ce type de topologies se limitent -pour le moment- des réseaux figés, or l'opportunité de définir une architecture matérielle (re)programmable offrirait la possibilité d'adresser une plus grande gamme applicative. Le sujet de cette thèse ouvrira donc la voie vers ce type de système davantage versatile du point de vue des cas d'usages, possiblement au-delà du traitement d'images/vidéo ; ce toujours sous une contrainte forte d'une consommation globale du système très faible.