Thèse soutenue

Analyse vidéo monoculaire temps réel de scènes dynamiques pour une application portable de guidage autonome piéton

FR  |  
EN
Auteur / Autrice : David Urban
Direction : Alice Caplier
Type : Thèse de doctorat
Discipline(s) : Signal, image, paroles, télécoms
Date : Soutenance le 18/10/2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique (2007-....)
Jury : Président / Présidente : Michèle Rombaut
Examinateurs / Examinatrices : Liming Chen
Rapporteur / Rapporteuse : Alexandre Benoît, Thierry Chateau

Résumé

FR  |  
EN

Les tâches complexes de vision par ordinateur telles que la détection d'objets et l'estimation de profondeur monoculaire se popularisent dans les applications temps réel d’analyse vidéo. De plus, des solutions optimisées pour des systèmes embarqués émergent grâce à la tendance actuelle de développement de systèmes de navigation automatiques tels que la conduite de voitures et drones autonomes.Dans le cadre d’un projet d’application de guidage autonome de piéton à l’aide de lunettes connectées comme les Google Glass, nous proposons une étude de faisabilité pour une solution d’analyse vidéo monoculaire de détection d’obstacles et de détection de collision en s’appuyant sur l’information de profondeur monoculaire. L’objectif est de démontrer la faisabilité et l’efficacité d’une solution basée sur l’analyse vidéo par réseau de neurones sur un dispositif portable. Dans l'étude réalisée, le choix des différentes méthodes utilisées s'est appuyé sur leur capacité à se généraliser sur de nouveaux environnements (même contexte, distribution de données différentes) et le compromis entre précision et vitesse de calcul.Parmi les différentes tâches implémentée dans la solution, nous proposons une méthode originale pour prédire le temps de collision entre la caméra et les différents obstacles à partir du flux vidéo monoculaire. La solution proposée se compose de deux modules : un extracteur de données statiques constitué de réseaux de neurones convolutifs pour prédire la position et la distance des obstacles et un extracteur de données dynamiques qui empile les caractéristiques des obstacles extraites sur plusieurs images et prédit le temps de collision avec un réseau de neurone entièrement connecté.