Thèse en cours

Reconnaissance par caméra événementielle pour le transport intelligent : CNN vs SNN

FR  |  
EN
Auteur / Autrice : Djessy Rossi
Direction : Pascal VasseurFabio Morbidi
Type : Projet de thèse
Discipline(s) : Sciences pour l'Ingénieur Vision par Ordinateur-25DSI9
Date : Inscription en doctorat le 17/10/2022
Etablissement(s) : Amiens
Ecole(s) doctorale(s) : École doctorale Sciences, technologie et santé (Amiens)
Partenaire(s) de recherche : Laboratoire : Modélisation, Information et Systèmes (Amiens ; 2008-....)

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les techniques d'apprentissage profond basées sur des réseaux convolutifs sont aujourd'hui de formidables outils pour accomplir des tâches de très haut niveau en vision par ordinateur. Néanmoins, elles restent peu efficaces dans le cas des caméras évènementielles puisque les filtres convolutifs ne sont pas nécessairement adaptés à ce type de caméras par la nature même de l'acquisition. En effet, le filtrage convolutif suggère une interdépendance spatiale entre les pixels voisins qui n'est pas vérifiée sur ces images et nécessite donc des calculs très couteux en temps de calcul alors que peu de pixels sont activés. C'est pourquoi cette thèse a pour objectif de revisiter les approches d'apprentissage profond pour des problématiques de reconnaissances d'objets et/ou lieux tout en tirant partie de la spécificité de ces images. La littérature présente de nombreux travaux sur les caméras évènementielles basées sur des techniques d'apprentissage profond [1]. Étant donné que les images évènementielles ne peuvent être traitées par des filtres convolutifs spatiaux comme des images classiques, les auteurs proposent deux représentations souvent antinomiques. La première consiste à représenter une série d'images évènementielles en un bloc 3D sur lequel les approches convolutives CNN peuvent s'adapter [2]. Les secondes consistent à utiliser d'autres outils d'apprentissage profond plus adaptés au type de données acquises par ces capteurs : les SNN (Spiking Neural Networks) - réseau de neurones à impulsions [3]. L'un des inconvénients potentiels des CNN est leur coût de calcul, ce qui les rend incompatibles avec la faible puissance et la faible latence naturelles des caméras évènementielles. Au contraire, les réseaux de neurones à impulsions SNN sont théoriquement plus efficaces en termes de consommation d'énergie et de temps de calcul, mais la réalisation de ces gains nécessite des algorithmes et du matériel spécialisés. De plus, leur caractère binaire et discontinue ne permet pas de développer des techniques basées sur des descentes de gradient pour la recherche d'optimum dans la phase d'apprentissage. L'objet de cette thèse sera tout d'abord d'évaluer dans quelles mesures les inconvénients et avantages des deux approches ont un impact dans des architectures neuronales pour la reconnaissance d'objets et de lieux. Ainsi nous reprendrons les algorithmes de la littérature et nous analyserons les limites de chacun dans l'application visée ici. Ces méthodes seront la base de références pour le développement de nouveaux algorithmes et architectures permettant d'allier les avantages des deux approches tout en cherchant à minimiser leurs défauts respectifs.