Extreme Learning Machine pour réseau de neurones embarqué
Auteur / Autrice : | Florent Crozet |
Direction : | Stéphane Mancini |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques et Informatique |
Date : | Inscription en doctorat le Soutenance le 24/10/2024 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale mathématiques, sciences et technologies de l'information, informatique |
Partenaire(s) de recherche : | Laboratoire : Techniques de l'Informatique et de la Microélectronique pour l'Architecture des systèmes intégrés |
Jury : | Président / Présidente : Dominique Ginhac |
Examinateurs / Examinatrices : Virginie Fresse, Laurent Fesquet, François Berry | |
Rapporteur / Rapporteuse : Virginie Fresse, François Berry |
Mots clés
Résumé
Lintelligence artificielle est déjà présente dans de nombreuses applications. Les résultats obtenus par les algorithmes dIA surpassent ceux des algorithmes de létat de lart dans plusieurs domaines, notamment dans la vision par ordinateur avec les réseaux de neurones convolutifs (CNNs). Dans le large spectre des applications, certaines ne peuvent pas être exécutée dans un centre de données à cause de contraintes temps réel ou dun manque de connexion internet. Les réseaux de neurones convolutifs doivent alors être exécutés sur lappareil qui acquiert les données. Cependant, ce type dappareils consomme peu dénergie, dispose dune faible empreinte mémoire ainsi quune faible capacité de calculs. A linverse, un réseau de neurones, qui requiert une forte empreinte mémoire, doit être compressé pour loger dans la mémoire de lappareil et être exécuté sur des systèmes embarqués. Le défi est alors de diminuer la taille mémoire dun réseau de neurones tout en limitant la dégradation des résultats. Des algorithmes de compression sont proposés pour réduire la taille mémoire des réseaux de neurones suivant deux stratégies. La première stratégie vient réduire le nombre de poids nécessaires afin de réaliser linférence avec une ensemble de poids réduits. La seconde stratégie vient réduire la taille mémoire des poids pour réaliser linférence avec une taille mémoire plus petite. En plus, les deux stratégies peuvent être combinées pour réduire davantage la taille mémoire des réseaux de neurones. Cependant, la première stratégie ajoute généralement des contraintes matérielles, avec une étape de décompression spécifique qui limite encore le déploiement des réseaux de neurones embarqués, alors que la seconde stratégie est plus directe. Dans cette thèse, une nouvelle méthode de compression des réseaux de neurones est proposée. En considérant létape de décompression des poids lors de linférence embarquée, lalgorithme utilise un outil simple mais efficace : les générateurs de nombres pseudo-aléatoires. Pour réduire le nombre de poids stockés en mémoire, notre algorithme introduit des poids pseudo-aléatoires dans le réseau de neurones. Les graines utilisées pour générer ces poids sont stockés. Pendant linférence, les poids pseudo-aléatoires sont alors générés à la volée pour calculer la sortie du réseau, à partir des graines stockées. Notre méthode de compression est testée sur différentes architectures CNN afin d'évaluer sa généricité et ainsi peut être appliquée à une large gamme de CNNs. Ses différents paramètres peuvent être ajustés en fonction des capacités matérielles, afin de maximiser le niveau de précision. En outre, divers générateurs de nombres pseudo-aléatoires peuvent être utilisés, à condition que les étapes de compression et d'inférence utilisent le même générateur. Nos évaluations sur les ensembles de données CIFAR-10 et CIFAR-100 soulignent une amélioration du gain de compression par rapport aux solutions de compression CNN existantes, avec une faible dégradation de la précision. Pour VGG16, notre méthode, combinée à l'élagage et à la quantification, réduit la taille de la mémoire du réseau d'un facteur 60 et ne réduit son niveau de précision que de 2 %. Pour MobileNetV2, une architecture optimisée, notre méthode, avec l'utilisation de la quantification, réduit la taille de la mémoire du réseau d'un facteur de 5,3 et réduit son niveau de précision de 4 %.