Thèse soutenue

Accélération et optimisation de l'inférence dans les réseaux de neurones profonds pour la vision par ordinateur

FR  |  
EN
Auteur / Autrice : Fekhr Eddine Keddous
Direction : Amir Nakib
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 21/11/2022
Etablissement(s) : Paris 12
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Images, Signaux et Systèmes Intelligents (Créteil)
Jury : Président / Présidente : Hugues Talbot
Examinateurs / Examinatrices : Amir Nakib, Abdeldjalil Ouahabi, Abdelmalik Taleb-Ahmed, Nadiya Shvai
Rapporteurs / Rapporteuses : Abdeldjalil Ouahabi, Abdelmalik Taleb-Ahmed

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les meilleurs modèles de DNN ont tendance à être très volumineux, parfois même énormes, ce qui les rend gourmands en calculs et en mémoire. Cependant, de nombreux problèmes de terrain nécessitent un temps d'inférence très rapide. Par exemple, les applications de vision par ordinateur exigent des performances en temps réel, avec des dizaines d’images nécessitant une inférence par seconde. D’autres applications s'appuient également sur l'inférence mais dans le cloud, ce qui peut entraîner des coûts exorbitants en termes de consommation de calculs.La barrière de l'inférence est un énorme fossé entre le succès du déploiement des réseaux de neurones et leur capacité à gérer des cas d’utilisations industriels. Dans cette thèse, l'accent a été mis sur les performances en termes de vitesse de calculs et les occupations mémoire, lors du processus d'inférence. En ce qui concerne la stratégie d'accélération, nous avons proposé l'optimisation de l'utilisation des ressources de calculs : la première proposition est un nouveau réseau de neurones convolutionnels à grande échelle de bout en bout basé sur OpenCL ciblant les FPGA d'Intel, appelé "Fast Inference on FPGA for CNN (FFCNN) ", où les espaces de conception ont été étudiés en déployant trois CNN à grande échelle pour la classification d'images (les modèles AlexNet, VGG-16 et ResNet-50 ont été évalués) sur les deux cartes FPGA Alaric et Nallatech. La deuxième proposition est axée sur l'accélération des modèles de transformers de vision. Dans ce cas, une nouvelle couche (LayerNorm) qui calcule et enregistre les moments statistiques (moyenne mobile et variance) pendant la formation a été ajoutée et utilise ces derniers directement lors du processus d'inférence. Par conséquent, une fusion de la couche de normalisation et de la couche linéaire la plus proche peut être effectuée pour améliorer le temps d'inférence des modèles transformers. En ce qui concerne l'optimisation de la mémoire, nous avons proposé deux approches pour la compression DNN dans notre travail, qui peuvent réduire considérablement la quantité de stockage de mémoire et l'énergie nécessaire pour effectuer l'inférence sur de grandes architecture. Dans la première contribution, nous avons remplacé les couches FC par un Hopfield Neural Network (HNN) : la nouvelle architecture combine CNN et HNN. Le HNN est considéré alors comme une mémoire associative qui stocke toutes les caractéristiques extraites par le CNN. La deuxième contribution vise à atteindre une efficacité de compression maximale pour les réseaux de neurones profonds en intégrant des techniques de prétraitement de réduction de données, des filtres basés sur la dérivation fractionnaire, des algorithmes évolutionnaires et un codage arithmétique binaire adaptatif au contexte.