Thèse soutenue

Reconnaissance de postures pour l'interprétation d'activité humaine

FR  |  
EN
Auteur / Autrice : Bernard Boulay
Direction : Monique Thonnat
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2007
Etablissement(s) : Nice
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)

Mots clés

FR

Résumé

FR  |  
EN

Durant cette thèse nous avons proposé une approche temps réel, générique et fonctionnelle pour reconnaître la posture des personnes filmées par une caméra statique. Notre approche est conçue pour être complètement automatique et indépendante du point de vue de la caméra. La reconnaissance de posture à partir de séquence vidéo est un problème difficile. Ce problème s'inscrit dans le champ de recherche plus général de l'interprétation de séquence vidéo. L'approche proposée prend en entrée des informations provenant d'algorithmes de vision telles que la silhouette de la personne observée (une image binaire où une couleur représente la personne et l'autre le fond) ou sa position dans la scène. La première contribution est la modélisation d'un avatar 3D de posture. Un avatar 3D de posture est composé d'un modèle 3D humain (définissant les relations entre les différentes parties du corps), d'un ensemble de paramètre (définissant les positions des différentes parties du corps) et d'un ensemble de primitive (définissant l'aspect visuel des parties du corps). La seconde contribution est la proposition d'une approche hybride combinant l'utilisation de modèles 3D et de techniques 2D. Les avatars 3D de postures sont utilisés dans le processus de reconnaissance pour avoir une certaine indépendance du point de vue de la caméra. Les techniques 2D représentent les silhouettes des personnes détectées pour garder un temps réel de calcul. Cette thèse montre comment les avatars 3D peuvent être utilisés pour obtenir une approche générique et fonctionnelle pour reconnaître les postures. Cette approche est composée de deux parties : la détection de postures qui reconnaît la posture de la personne détectée en utilisant seulement l'information calculée sur l'image considérée, et le filtrage temporel de posture qui reconnaît la posture en utilisant l'information provenant des images précédentes. Une troisième contribution a été faite en comparant différentes représentations 2D des silhouettes au niveau du temps de calcul nécessaire et de leur dépendance à la qualité de la silhouette. Quatre représentations ont été retenues : une représentation combinant différentes valeurs géométriques, les moment de Hu, la skeletonisation et les projections horizontale et verticale. Une quatrième contribution est la caractérisation des cas ambigus. Des ambiguïtés au niveau de la reconnaissance peuvent se produire en utilisant seulement une caméra statique. Une posture ambiguë est définie par plusieurs postures vii qui ont des silhouettes visuellement similaires. Des données de synthèse sont générées pour évaluer l'approche proposée pour différents points de vue. Ainsi, les postures ambiguës sont identifiées en considérant la posture et son orientation. L'approche est aussi évaluée pour des données réelles en proposant un modèle de vérité terrain pour la reconnaissance de posture. Une cinquième contribution a été proposée en appliquant le résultat de notre approche à la reconnaissance d'action. Une méthode utilisant des machines à états finis a ainsi été proposée pour reconnaître des actions faisant intervenir une seule personne. Chaque état de la machine est composé d'une ou plusieurs postures. Cette méthode est appliquée avec succès pour détecter les chutes et la marche. Bien que notre approche donne de très bon taux de reconnaissance, il subsiste quelques limitations. La principale limitation de l'approche est qu'elle est limitée en nombre de postures d'intérêt pour des raisons de temps de calcul et de discrimination entre les postures considérées. La seconde limitation est le temps nécessaire à la génération des silhouettes des avatars 3D de posture. En utilisant l'information sur le déplacement de la personne dans la scène, l'algorithme de reconnaissance de posture traite entre 5 et 6 images par seconde. Des améliorations peuvent être faites pour résoudre ces limitations. En particulier, nous pourrions adapter automatiquement l'ensemble des postures d'intérêt au cas considéré, en utilisant par exemple la posture reconnue précédemment pour restreindre les postures 3D dont nous voulons extraire les silhouettes.