Modèles attentionnels pour les données événementielles
Auteur / Autrice : | Gnouyadou Mazna |
Direction : | Jean Martinet |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 04/11/2024 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis |
Mots clés
Mots clés libres
Résumé
Cette proposition s'inscrit dans le cadre d'un projet collaboratif international cofinancé par l'ANR et la NSF Suisse : le projet NAMED (Neuromorphic Attention Models for Event Data) qui a débuté le 1er février 2024. Le domaine de la vision informatique embarquée est devenu de plus en plus important ces dernières années en raison de la demande croissante de systèmes de vision à faible latence et à faible consommation d'énergie. L'un des principaux défis dans ce domaine consiste à développer des systèmes de vision intelligents capables de traiter efficacement de grandes quantités de données visuelles tout en conservant une précision et une fiabilité élevées. La mission principale de ce sujet de thèse est de concevoir et de mettre en uvre des modèles d'attention cognitive pour la vision par ordinateur adaptés aux données événementielles. Une première étape consistera à étudier les mécanismes attentionnels de l'état de l'art dans les réseaux profonds et leur lien avec l'attention cognitive telle qu'elle est mise en uvre dans le cerveau. L'attention cognitive désigne le traitement sélectif des informations sensorielles par le cerveau en fonction de leur pertinence et de leur importance pour la tâche ou l'objectif en cours. Elle implique la capacité de concentrer son attention sur des aspects spécifiques de l'environnement tout en filtrant les informations non pertinentes ou distrayantes. L'étude fera notamment la distinction entre l'attention dit « bottom-up » et l'attention « top-down ». La deuxième étape consistera à concevoir une architecture attentionnelle pour les données événementielles qui permettra de se concentrer sélectivement sur les régions pertinentes tout en ignorant les parties non pertinentes, ce qui dépendra de la tâche ciblée (par exemple, segmentation, suivi d'objets, évitement d'obstacles, etc.) Le modèle sera basé soit sur des réseaux profonds standard, soit sur des réseaux de neurones impulsionnels, sur la base de travaux antérieurs de l'équipe d'accueil. Les réseaux neuronaux impulsionnels sont une classe particulière de réseaux neuronaux artificiels, où les neurones communiquent par des séquences de pointes asynchrones. En raison de leur principe de fonctionnement asynchrone, ils constituent donc une solution naturelle pour les caméras événementielles. Cette sélection de régions se traduira par une utilisation moindre de données et par des modèles plus petits (système frugal). Dans un troisième temps, nous évaluerons l'impact du mécanisme d'attention sur les performances générales d'un système embarqué de vision par ordinateur. Les métriques retenues dépendront évidemment de la tâche sélectionnée et incluront la précision, le MIOU, la compacité et l'efficacité.