Thèse soutenue

Approches géométriques pour l'analyse du mouvement humain en 3D : application à la reconnaissance d'action et à l’indexation

FR  |  
EN
Auteur / Autrice : Rim Slama
Direction : Mohamed DaoudiHazem Wannous
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/10/2014
Etablissement(s) : Lille 1
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur (Lille)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique fondamentale de Lille (2002-2014)

Résumé

FR  |  
EN

Dans le cadre de cette thèse, nous proposons des approches géométriques permettant d’analyser des mouvements humains à partir de données issues de capteurs 3D. Premièrement, nous abordons le problème de comparaison de poses et de mouvements dans des séquences contenant des modèles de corps humain en 3D. En introduisant un nouveau descripteur, appelé Extremal Human Curve (EHC), la forme du corps humain dans une pose donnée est décrite par une collection de courbes. Ces courbes extraites de la surface du maillage relient les points se situant aux extrémités du corps. Dans un formalisme Riemannien, chacune de ces courbes est considérée comme un point dans un espace de formes offrant la possibilité de les comparer. Par ailleurs, les actions sont modélisées par des trajectoires dans cet espace, où elles sont comparées en utilisant la déformation temporelle dynamique. Deuxièmement, nous proposons une approche de reconnaissance d’actions et de gestes à partir de vidéos produites par des capteurs de profondeur. A travers une modélisation géométrique, une séquence d’action est représentée par un système dynamique dont la matrice d’observabilité est caractérisée par un élément de la variété de Grassmann. Par conséquent, la reconnaissance d’actions est reformulée en un problème de classification de points sur cette variété. Ensuite, un nouvel algorithme d’apprentissage basé sur la notion d’espaces tangents est proposé afin d’améliorer le système de reconnaissance. Les résultats de notre approche, testés sur plusieurs bases de données, donnent des taux de reconnaissance de haute précision et de faible latence.