Thèse de doctorat en Imagerie, vision, robotique
Sous la direction de Bill Triggs.
Soutenue en 2006
à Grenoble INPG .
Apprentissage machine pour l'estimation du mouvement humain
L'estimation du mouvement humain est un problème bien connu du domaine de la vision par ordinateur. Il consiste à estimer les configurations 3D d'un corps humain à partir d'un ensemble d'images. Il a des applications dans l'interaction homme- machine, la surveillance, l'animation et l'analyse des vidéos. Cette thèse adopte une approche basée sur l'apprentissage automatique pour l'estimation dans une configuration monoculaire. Nous déduisons d'une collection d'images et des données issues de la capture de mouvement les modèles mathématiques qui permettent de retrouver directement la configuration d'un corps à partir de descripteurs d'image. L'approche est complètement guidée par les données, évitant l'utilisation d'un modèle de corps humain. L'inférence est donc extrêmement rapide. Nous formons une classe de méthodes basées sur la régression pour réduire une grande base de données d'apprentissage en un modèle compact qui se généralise pour récuperer la pose à partir de nouvelles images. Les méthodes se fondent sur des descripteurs robustes d'images, l'apprentissage de modèles dynamiques du mouvement humain et l'utilisation de noyaux dans un cadre de régression éparse. Premièrement, nous montrons comment récupérer efficacement la pose à partir de silhouettes extraites par soustraction de fond. Nous exploitons la caractère épars de la « relevance vector machine" pour améliorer la généralisation et l'efficacité. Nous utilisons un mélange de régresseurs pour lever, de manière probabilistique, les ambiguités de la reconstruction 3D à partir de silhouettes monoculaires. Les méthodes développées permettent de retrouver la pose à partir d'images statiques aussi bien que 1 suivi de mouvement dans les séquences vidéo. Deuxièmement, le cadre est généralisé à la récupération de la pose 3 dans les images encombrées en développant un codage d'image approprié, résistant aux changements de l'image de fond. Nous montrons qu'une factorisation non-négative de matrice permet de supprimer les descripteurs du fond et de restreindre la régression aux descripteurs du corps humain. Finalement, nous étudions les méthodes de codage d'image dans un contexte plus général et présentons une nouvelle représentation basée sur les «hyperfeatures ", qui codent une image à plusieurs niveaux d'abstraction et s'avèrent efficaces pour la classification d'images et la reconnaisance d'objets.
Pas de résumé disponible.
Image based motion capture is a problem that has recently gained a lot of attention in the domain of understanding human motion in computer vision. The problem involves estimating the 3D configurations of a human body from a set of images and has applications that include human computer interaction, smart surveillance, video analysis and animation. This thesis takes a machine learning based approach to reconstructing 3D pose and motion from monocular images or video. It makes use of a collection of images and motion capture data to derive mathematical models that allow the recovery of full body configurations directly from image features. The approach is completely data-driven and avoids the use of a human body mode!. This makes the inference extremely fast. We formulate a class of regression based methods to distill a large training database of motion capture and image data into a compact model that generalizes to predicting pose from new images. The methods rely on using appropriately developed robust image descriptors, learning dynamical models of human motion, and kernelizing the input within a sparse regression framework. Firstly, it is shown how pose can effectively and efficiently be recovered from image silhouettes that are extracted using background subtraction. We exploit sparseness properties of the relevance vector machine for improved generalization and efficiency, and make use of a mixture of reg ressors for probabilistically handling ambiguities that are present in monocular silhouette based 3D reconstruction. The methods developed enable pose reconstruction from single images as weil as tracking motion in video sequences. Secondly, the framework is extended to recover 3D pose from cluttered images by introducing a suitable image encoding that is resistant to changes in background. We show that non-negative matrix factorization can be used to suppress background features and allow the regression to selectively cue on features from the foreground human body. Finally, we study image encoding methods in a broader context and present a novel multi-Ievel image encoding framework called 'hyperfeatures' that proves to be effective for object recognition and image classification tasks.