Thèse en cours

Extreme Learning Machine pour réseau de neurones embarqué

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 24/10/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Florent Crozet
Direction : Stéphane Mancini
Type : Projet de thèse
Discipline(s) : Mathématiques et Informatique
Date : Inscription en doctorat le
Soutenance le 24/10/2024
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique
Partenaire(s) de recherche : Laboratoire : Techniques de l'Informatique et de la Microélectronique pour l'Architecture des systèmes intégrés
Jury : Président / Présidente : Dominique Ginhac
Examinateurs / Examinatrices : Virginie Fresse, Laurent Fesquet, François Berry
Rapporteur / Rapporteuse : Virginie Fresse, François Berry

Résumé

FR  |  
EN

L’intelligence artificielle est déjà présente dans de nombreuses applications. Les résultats obtenus par les algorithmes d’IA surpassent ceux des algorithmes de l’état de l’art dans plusieurs domaines, notamment dans la vision par ordinateur avec les réseaux de neurones convolutifs (CNNs). Dans le large spectre des applications, certaines ne peuvent pas être exécutée dans un centre de données à cause de contraintes temps réel ou d’un manque de connexion internet. Les réseaux de neurones convolutifs doivent alors être exécutés sur l’appareil qui acquiert les données. Cependant, ce type d’appareils consomme peu d’énergie, dispose d’une faible empreinte mémoire ainsi qu’une faible capacité de calculs. A l’inverse, un réseau de neurones, qui requiert une forte empreinte mémoire, doit être compressé pour loger dans la mémoire de l’appareil et être exécuté sur des systèmes embarqués. Le défi est alors de diminuer la taille mémoire d’un réseau de neurones tout en limitant la dégradation des résultats. Des algorithmes de compression sont proposés pour réduire la taille mémoire des réseaux de neurones suivant deux stratégies. La première stratégie vient réduire le nombre de poids nécessaires afin de réaliser l’inférence avec une ensemble de poids réduits. La seconde stratégie vient réduire la taille mémoire des poids pour réaliser l’inférence avec une taille mémoire plus petite. En plus, les deux stratégies peuvent être combinées pour réduire davantage la taille mémoire des réseaux de neurones. Cependant, la première stratégie ajoute généralement des contraintes matérielles, avec une étape de décompression spécifique qui limite encore le déploiement des réseaux de neurones embarqués, alors que la seconde stratégie est plus directe. Dans cette thèse, une nouvelle méthode de compression des réseaux de neurones est proposée. En considérant l’étape de décompression des poids lors de l’inférence embarquée, l’algorithme utilise un outil simple mais efficace : les générateurs de nombres pseudo-aléatoires. Pour réduire le nombre de poids stockés en mémoire, notre algorithme introduit des poids pseudo-aléatoires dans le réseau de neurones. Les graines utilisées pour générer ces poids sont stockés. Pendant l’inférence, les poids pseudo-aléatoires sont alors générés à la volée pour calculer la sortie du réseau, à partir des graines stockées. Notre méthode de compression est testée sur différentes architectures CNN afin d'évaluer sa généricité et ainsi peut être appliquée à une large gamme de CNNs. Ses différents paramètres peuvent être ajustés en fonction des capacités matérielles, afin de maximiser le niveau de précision. En outre, divers générateurs de nombres pseudo-aléatoires peuvent être utilisés, à condition que les étapes de compression et d'inférence utilisent le même générateur. Nos évaluations sur les ensembles de données CIFAR-10 et CIFAR-100 soulignent une amélioration du gain de compression par rapport aux solutions de compression CNN existantes, avec une faible dégradation de la précision. Pour VGG16, notre méthode, combinée à l'élagage et à la quantification, réduit la taille de la mémoire du réseau d'un facteur 60 et ne réduit son niveau de précision que de 2 %. Pour MobileNetV2, une architecture optimisée, notre méthode, avec l'utilisation de la quantification, réduit la taille de la mémoire du réseau d'un facteur de 5,3 et réduit son niveau de précision de 4 %.