Thèse soutenue

Détection et suivi de la posture humaine dans les images fixes et les vidéos

FR  |  
EN
Auteur / Autrice : Aichun Zhu
Direction : Abel CherouatHichem Snoussi
Type : Thèse de doctorat
Discipline(s) : Optimisation et Sûreté des Systèmes
Date : Soutenance le 30/05/2016
Etablissement(s) : Troyes
Ecole(s) doctorale(s) : École doctorale Sciences pour l'Ingénieur (Troyes, Aube)
Partenaire(s) de recherche : Organisme gouvernemental étranger : China Scholarship Council
Laboratoire : Institut Charles Delaunay / ICD
Jury : Président / Présidente : Mohamed Daoudi
Examinateurs / Examinatrices : Abel Cherouat, Hichem Snoussi, Mohamed Daoudi, Fadi Dornaika, Hichem Sahbi
Rapporteurs / Rapporteuses : Fadi Dornaika, Hichem Sahbi

Résumé

FR  |  
EN

L’estimation de la pose du corps humain est un problème difficile en vision par ordinateur et les actions de toutes les difficultés de détection d’objet. Cette thèse se concentre sur les problèmes de l’estimation de la pose du corps humain dans les images ou vidéo, y compris la diversité des apparences, les changements de scène et l’éclairage de fond de confusion encombrement. Pour résoudre ces problèmes, nous construisons un modèle robuste comprenant les éléments suivants. Tout d’abord, les méthodes top-down et bottom-up sont combinés à l’estimation pose humaine. Nous étendons le modèle structure picturale (PS) de coopérer avec filtre à particules recuit (APF) pour robuste multi-vues estimation de la pose. Deuxièmement, nous proposons plusieurs parties de mélange à base (MMP) modèle d’une partie supérieure du corps pour l’estimation de la pose qui contient deux étapes. Dans la phase de pré-estimation, il y a trois étapes: la détection du haut du corps, catégorie estimation du modèle pour le haut du corps, et la sélection de modèle complet pour pose estimation. Dans l’étape de l’estimation, nous abordons le problème d’une variété de poses et les activités humaines. Enfin, le réseau de neurones à convolution (CNN) est introduit pour l’estimation de la pose. Un Local Multi-résolution réseau de neurones à convolution (LMR-CNN) est proposé pour apprendre la représentation pour chaque partie du corps. En outre, un modèle hiérarchique sur la base LMR-CNN est défini pour faire face à la complexité structurelle des parties de branche. Les résultats expérimentaux démontrent l’efficacité du modèle proposé