Learning to Detect Keypoints with an Event-Based Camera
Auteur / Autrice : | Philippe Chiberre |
Direction : | Vincent Lepetit |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, Image, Automatique |
Date : | Soutenance le 12/12/2022 |
Etablissement(s) : | Marne-la-vallée, ENPC |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) |
Jury : | Président / Présidente : Franck Davoine |
Examinateurs / Examinatrices : Vincent Lepetit, Guillermo Gallego, Arren Glover, Cornelia Fermuller, Amos Sironi | |
Rapporteurs / Rapporteuses : Guillermo Gallego |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les points clés sont à l’origine de multiples applications de vision par ordinateur telles que la réalité virtuelle ou augmentée et la robotique. Les caméras par événements, ou caméras neuromorphiques, ont par ailleurs de nombreux avantages pour les plateformes mobiles : une très faible consommation d’énergie, une grande plage dynamique et une résolution temporelle très faible (de l’ordre de la microseconde). L’objectif de cette thèse et de développer des algorithmes de détection de points clés pour les caméras par événements et permettre le transfère des algorithmes de vision historiques pour les images vers cette nouvelle plateforme. La première partie de la thèse présente les différentes approches possibles pour générer des données de points clés dans des flux d’événements tout en utilisant la vaste littérature de vision par ordinateur existante pour les images. La deuxième partie de la thèse présente un nouvel algorithme permettant de détecter des points d’intérêts en utilisant une représentation intermédiaire. En effet nous utilisons un réseau de neurones convolutionels et récurrent pour prédire les gradients de l’image correspondante aux événements. Nous utilisons ensuite le score de Harris qui utilise les gradients de l’image pour détecter des points d’intérêts. Cet algorithme obtient une erreur de reprojection de l’ordre de l’état de l’art tout en augmentant le temps de vie des trajectoires. Notre dernière contribution est un algorithme qui prédit directement les points d’intérêts depuis les événements sans représentation intermédiaire. Cette méthode, basée sur les données, réduit l’erreur de rerojection de l’état de l’art tout en multipliant par trois la longueur des trajectoires. Ces améliorations proviennent de deux éléments clés: une amélioration de la plateforme d’entraînement pour une meilleure cohérence temporelle des points d’intérêts et une prédiction de plusieurs cartes de chaleur simultanément pour une meilleure précision.