Thèse soutenue

Détection et suivi d'objets 2D et 3D fondés sur l'apprentissage profond sur vidéos monoculaires dans le contexte des véhicules autonomes
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Zhujun Xu
Direction : Eric ChaumetteDamien Vivet
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 01/04/2022
Etablissement(s) : Toulouse, ISAE
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Equipe de recherche : Équipe d'accueil doctoral Signal, communication, antenne et navigation, radar (Toulouse, Haute-Garonne)
Laboratoire : Institut supérieur de l'aéronautique et de l'espace (Toulouse, Haute-Garonne). Département électronique, optronique et signal
Jury : Président / Présidente : Thierry Chateau
Examinateurs / Examinatrices : Eric Chaumette, Damien Vivet, Samia Ainouz
Rapporteurs / Rapporteuses : Thierry Chateau, Samia Ainouz

Résumé

FR  |  
EN

L'objectif de ce travail de thèse est de développer des méthodes de détection et de suivi d'objets 2D et 3D fondés sur l'apprentissage profond sur vidéo monoculaire et de les appliquer au contexte du véhicule autonome. En effet, lorsque l’on utilise directement des détecteurs d'images fixes pour traiter un flux vidéo, la précision souffre d'un problème de qualité d'image du fait de l’échantillonnage. De plus, les annotations 3d des vidéos prennent du temps et sont coûteuses en raison du grand nombre d'images. Nous profitons donc des informations temporelles dans les vidéos, telle que la cohérence des objets, pour améliorer les performances. Les méthodes ne doivent pas introduire trop de charge de calcul supplémentaire, car le véhicule autonome exige une performance en temps réel.Plusieurs méthodes peuvent être utilisées dans différentes étapes, par exemple, la préparation des données, l'architecture du réseau et le post-traitement. Tout d'abord, nous proposons une méthode de post-traitement appelée heatmap propagation (propagation de carte de chaleur) fondée sur un one-stage détecteur CenterNet pour la détection d'objets dans les vidéos. Notre méthode propage la détection fiable effectuée sur les images précédentes sous la forme d’une heatmap pour la prochaine image. Ensuite, pour distinguer différents objets d'une même classe, nous proposons une architecture de réseau image par image pour la segmentation d'instances vidéo en utilisant les instance sequence queries (requête de séquence d’instances) . Le suivi des instances est réalisé sans post-traitement supplémentaire pour l'association de données. Enfin, nous proposons une méthode d'apprentissage semi-supervisée pour générer des annotations 3D pour une base de données de suivi d'objets dans les vidéos 2D. Cela permet d'enrichir le processus d'apprentissage pour la détection d'objets 3D. Chacune des trois méthodes peut être appliquée individuellement pour étendre les détecteurs d'images dans le cadre d’applications sur vidéo. Nous proposons également deux structures de réseau complètes pour résoudre la détection et le suivi d'objets 2D et 3D sur vidéo monoculaire.