Analyse vidéo monoculaire temps réel de scènes dynamiques pour une application portable de guidage autonome piéton
Auteur / Autrice : | David Urban |
Direction : | Alice Caplier |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, image, paroles, télécoms |
Date : | Soutenance le 18/10/2021 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images parole signal automatique (2007-....) |
Jury : | Président / Présidente : Michèle Rombaut |
Examinateurs / Examinatrices : Liming Chen | |
Rapporteur / Rapporteuse : Alexandre Benoît, Thierry Chateau |
Mots clés
Résumé
Les tâches complexes de vision par ordinateur telles que la détection d'objets et l'estimation de profondeur monoculaire se popularisent dans les applications temps réel d’analyse vidéo. De plus, des solutions optimisées pour des systèmes embarqués émergent grâce à la tendance actuelle de développement de systèmes de navigation automatiques tels que la conduite de voitures et drones autonomes.Dans le cadre d’un projet d’application de guidage autonome de piéton à l’aide de lunettes connectées comme les Google Glass, nous proposons une étude de faisabilité pour une solution d’analyse vidéo monoculaire de détection d’obstacles et de détection de collision en s’appuyant sur l’information de profondeur monoculaire. L’objectif est de démontrer la faisabilité et l’efficacité d’une solution basée sur l’analyse vidéo par réseau de neurones sur un dispositif portable. Dans l'étude réalisée, le choix des différentes méthodes utilisées s'est appuyé sur leur capacité à se généraliser sur de nouveaux environnements (même contexte, distribution de données différentes) et le compromis entre précision et vitesse de calcul.Parmi les différentes tâches implémentée dans la solution, nous proposons une méthode originale pour prédire le temps de collision entre la caméra et les différents obstacles à partir du flux vidéo monoculaire. La solution proposée se compose de deux modules : un extracteur de données statiques constitué de réseaux de neurones convolutifs pour prédire la position et la distance des obstacles et un extracteur de données dynamiques qui empile les caractéristiques des obstacles extraites sur plusieurs images et prédit le temps de collision avec un réseau de neurone entièrement connecté.