Thèse soutenue

Compression pour l'apprentissage en profondeur
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Diana Resmerita
Direction : Lionel Fillatre
Type : Thèse de doctorat
Discipline(s) : Automatique et traitement du signal et des images
Date : Soutenance le 10/03/2022
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Jean-Marc Brossier
Examinateurs / Examinatrices : Lionel Fillatre, Jean-Marc Brossier, Vincent Gripon, Thierry Artières, Rodrigo Cabral Farias
Rapporteurs / Rapporteuses : Vincent Gripon, Thierry Artières

Résumé

FR  |  
EN

Les voitures autonomes sont des applications complexes qui nécessitent des machines puissantes pour pouvoir fonctionner correctement. Des tâches telles que rester entre les lignes blanches, lire les panneaux ou éviter les obstacles sont résolues en utilisant plusieurs réseaux neuronaux convolutifs (CNN) pour classer ou détecter les objets. Il est très important que tous les réseaux fonctionnent en parallèle afin de transmettre toutes les informations nécessaires et de prendre une décision commune. Aujourd'hui, à force de s'améliorer, les réseaux sont devenus plus gros et plus coûteux en termes de calcul. Le déploiement d'un seul réseau devient un défi. La compression des réseaux peut résoudre ce problème. Par conséquent, le premier objectif de cette thèse est de trouver des méthodes de compression profonde afin de faire face aux limitations de mémoire et de puissance de calcul présentes sur les systèmes embarqués. Les méthodes de compression doivent être adaptées à un processeur spécifique, le MPPA de Kalray, pour des implémentations à court terme. Nos contributions se concentrent principalement sur la compression du réseau après l'entraînement pour le stockage, ce qui signifie compresser des paramètres du réseau sans réentraîner ou changer l'architecture originale et le type de calculs. Dans le contexte de notre travail, nous avons décidé de nous concentrer sur la quantification. Notre première contribution consiste à comparer les performances de la quantification uniforme et de la quantification non-uniforme, afin d'identifier laquelle des deux présente un meilleur compromis taux-distorsion et pourrait être rapidement prise en charge par l'entreprise. L'intérêt de l'entreprise est également orienté vers la recherche de nouvelles méthodes innovantes pour les futures générations de MPPA. Par conséquent, notre deuxième contribution se concentre sur la comparaison des représentations en virgule flottante (FP32, FP16) aux représentations arithmétiques alternatives telles que BFloat16, msfp8, Posit8. Les résultats de cette analyse étaient en faveur de Posit8. Ceci a motivé la société Kalray à concevoir un décompresseur de FP16 vers Posit8. Enfin, de nombreuses méthodes de compression existent déjà, nous avons décidé de passer à un sujet adjacent qui vise à quantifier théoriquement les effets de l'erreur de quantification sur la précision du réseau. Il s'agit du deuxième objectif de la thèse. Nous remarquons que les mesures de distorsion bien connues ne sont pas adaptées pour prédire la dégradation de la précision dans le cas de l'inférence pour les réseaux de neurones compressés. Nous définissons une nouvelle mesure de distorsion avec une expression analytique qui s’apparente à un rapport signal/bruit. Un ensemble d'expériences a été réalisé en utilisant des données simulées et de petits réseaux qui montrent le potentiel de cette mesure de distorsion.