Gestion du compromis vitesse-précision dans les systèmes de détection de piétons basés sur apprentissage profond
Auteur / Autrice : | Ujjwal Ujjwal |
Direction : | François Brémond |
Type : | Thèse de doctorat |
Discipline(s) : | Automatique et traitement du signal et des images |
Date : | Soutenance le 13/11/2019 |
Etablissement(s) : | Université Côte d'Azur (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....) |
Partenaire(s) de recherche : | établissement de préparation : Université de Nice (1965-2019) |
Institut : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) | |
Laboratoire : Spatio-Temporal Activity Recognition Systems | |
Jury : | Président / Présidente : Frédéric Precioso |
Examinateurs / Examinatrices : Frédéric Precioso, Christian Wolf, Alexandre Alahi, Thierry Chateau, Aziz Dziri | |
Rapporteur / Rapporteuse : Christian Wolf, Alexandre Alahi, Thierry Chateau |
Mots clés
Résumé
L'objectif principal de cette thèse est d'améliorer la précision des systèmes de détection de piétons à partir d'image, basés sur l'apprentissage profond sans sacrifier à la vitesse de détection. Pour ce faire, nous effectuons d'abord une analyse quantitative systématique des diverses techniques de détection de piétons à partir d'image. Cette analyse nous permet d'identifier les configurations optimales des différentes composantes d'un système de détection de piétons. Nous examinons ensuite la question de la sélection des meilleures couches convolutionnelles pour extraire les caractéristiques visuelles pour la détection des piétons et proposons un système appelé Multiple-RPN, qui combine plusieurs couches convolutives simultanément. Nous proposons le système Multiple-RPN en deux configurations - une fusion tôt et une fusion-tardive ; nous démontrons ensuite que la fusion-tôt est la plus performante, en particulier pour la détection de piétons de petites tailles et les cas d'occultation de piétons. Cette étude fournit aussi une évaluation quantitative de la sélection des couches convolutionnelles. Nous intégrons ensuite l'approche de la fusion-tôt avec une étape de segmentation pseudo-sémantique pour réduire le cout de traitement. Dans cette approche, la segmentation pseudo-sémantique permet de réduire les faux positifs et les faux négatifs. Ceci, associé à un nombre réduit d'opérations, permet d'améliorer simultanément les performances de détection et la vitesse de traitement (~20 images/seconde) ; les performances sont compétitives avec celles de l'état de l'art sur les bases de données caltech-raisonable (3,79% de taux d'erreurs) et citypersons (7,19% de taux d'erreurs). La dernière contribution de cette thèse est la proposition d'une couche de classification des détections potentielles, qui réduit encore le nombre d'opérations de détection. Il en résulte une réduction de la vitesse de détection (~40 images/seconde) avec une perte minime de performance de détection (3,99% et 8,12% de taux d'erreurs dans les bases de données caltech-raisonable et citypersons respectivement) ce qui reste compétitif avec l'état de l'art.