Apprentissage machine pour l'estimation du mouvement humain
Auteur / Autrice : | Ankur Agarwal |
Direction : | Bill Triggs |
Type : | Thèse de doctorat |
Discipline(s) : | Imagerie, vision, robotique |
Date : | Soutenance en 2006 |
Etablissement(s) : | Grenoble INPG |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L'estimation du mouvement humain est un problème bien connu du domaine de la vision par ordinateur. Il consiste à estimer les configurations 3D d'un corps humain à partir d'un ensemble d'images. Il a des applications dans l'interaction homme- machine, la surveillance, l'animation et l'analyse des vidéos. Cette thèse adopte une approche basée sur l'apprentissage automatique pour l'estimation dans une configuration monoculaire. Nous déduisons d'une collection d'images et des données issues de la capture de mouvement les modèles mathématiques qui permettent de retrouver directement la configuration d'un corps à partir de descripteurs d'image. L'approche est complètement guidée par les données, évitant l'utilisation d'un modèle de corps humain. L'inférence est donc extrêmement rapide. Nous formons une classe de méthodes basées sur la régression pour réduire une grande base de données d'apprentissage en un modèle compact qui se généralise pour récuperer la pose à partir de nouvelles images. Les méthodes se fondent sur des descripteurs robustes d'images, l'apprentissage de modèles dynamiques du mouvement humain et l'utilisation de noyaux dans un cadre de régression éparse. Premièrement, nous montrons comment récupérer efficacement la pose à partir de silhouettes extraites par soustraction de fond. Nous exploitons la caractère épars de la « relevance vector machine'' pour améliorer la généralisation et l'efficacité. Nous utilisons un mélange de régresseurs pour lever, de manière probabilistique, les ambiguités de la reconstruction 3D à partir de silhouettes monoculaires. Les méthodes développées permettent de retrouver la pose à partir d'images statiques aussi bien que 1 suivi de mouvement dans les séquences vidéo. Deuxièmement, le cadre est généralisé à la récupération de la pose 3 dans les images encombrées en développant un codage d'image approprié, résistant aux changements de l'image de fond. Nous montrons qu'une factorisation non-négative de matrice permet de supprimer les descripteurs du fond et de restreindre la régression aux descripteurs du corps humain. Finalement, nous étudions les méthodes de codage d'image dans un contexte plus général et présentons une nouvelle représentation basée sur les «hyperfeatures '', qui codent une image à plusieurs niveaux d'abstraction et s'avèrent efficaces pour la classification d'images et la reconnaisance d'objets.