Reconnaissance d’action à partir de descripteurs spatio-temporels
Auteur / Autrice : | Sameh Megrhi |
Direction : | Azeddine Beghdadi |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de l'ingénieur mention me. Réseaux et technologie de l'information |
Date : | Soutenance le 15/12/2014 |
Etablissement(s) : | Paris 13 |
Ecole(s) doctorale(s) : | École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Traitement et Transport de l'Information / L2TI |
Jury : | Président / Présidente : Abdesselam Bouzerdoum |
Examinateurs / Examinatrices : Abdesselam Bouzerdoum, Faouzi Alaya Cheikh, Emmanuel Viennet, Wided Souidène | |
Rapporteurs / Rapporteuses : Stefania Colonnese, Titus Bogdan Zaharia |
Mots clés
Résumé
L'analyse et l’interprétation de contenus visuels et plus particulièrement la vidéo est un domaine de recherche de plus en plus attractif en raison du nombre important d'applications telles que la vidéo-surveillance, le résumé de films, l'indexation, les jeux vidéo, la robotique et la domotique. Dans cette thèse nous nous intéressons à la détection et à la reconnaissance d'actions humaines dans des séquences vidéo. Pour la partie détection des actions, nous avons introduit deux approches basées sur les points d'intérêts locaux. La première proposition est une méthode simple et efficace qui vise à détecter les mouvements humains ensuite contribuer à extraire des séquences vidéo décrivant des actions importantes. Afin d'atteindre cet objectif, les premières séquences vidéo sont segmentées en volumes de trames et groupes de points d’intérêts. Dans cette méthode, nous nous basons sur le suivi du mouvement des points d'intérêts. Nous avons utilisé, dans un premier lieu, des vidéos simples puis nous avons progressivement augmenté la complexité des vidéos en optant pour des scènes réalistes. Les jeux de données simples présentent généralement un arrière-plan statique avec un Seul acteur qui effectue une seule action unique ou bien la même action mais d'une manière répétitive. Nous avons ensuite testé la robustesse de la détection d'action proposée dans des jeux de données plus complexes réalistes recueillis à partir des réseaux sociaux. Nous avons introduit une approche de détection d'actions efficace pour résoudre le problème de la reconnaissance d'actions humaines dans les vidéos réalistes contenant des mouvements de caméra. Le mouvement humain est donc segmenté d'une manière spatio-temporelle afin de détecter le nombre optimal de trames suffisant pour effectuer une description vidéo. Les séquences sont décrites au moyen de descripteurs spatio-temporels. Nous avons proposé dans cette thèse deux nouveaux descripteurs spatio-temporels basés sur le suivi de la trajectoire des points d'intérêts. Les suivis et la description vidéo sont effectués sur les patchs vidéo qui contiennent un mouvement ou une partie d'un mouvement détecté par la segmentation réalisée lors de l'étape précédente. Nous nous sommes basés sur le descripteur SURF non seulement pour sa précision et mais surtout pour la rapidité. Le premier descripteur proposé est appelé ST-SURF basé sur une nouvelle combinaison du (SURF) et du flot optique. Le ST-SURF permet le suivi de la trajectoire des points d'intérêts tout en gardant les informations spatiales, pertinentes, provenant du SURF. Le deuxième descripteur proposé dans le cadre de cette thèse est un histogramme du mouvement de la trajectoire (HMTO). HMTO est basé sur la position ainsi que l'échelle relative à un SURF. Ainsi, pour chaque SURF détecté, nous définissons une région du voisinage du point d'intérêt en nous basant sur l'échelle. Pour le patch détecté, nous extrayons le flot optique d'une manière dense. Les trajectoires de mouvement sont ensuite générées pour chaque pixel en exploitant les composantes horizontale et verticale de flot optique (u, v). La précision de la description de la vidéo proposée est testée sur un ensemble de données complexes et un plus grand ensemble de données réalistes. Les descripteurs de vidéo proposés sont testés d'une manière simple puis en les fusionnants avec d'autres descripteurs. Les descripteurs vidéo ont été introduits dans un processus de classification basé sur le sac de mots et ont démontré une amélioration des taux de reconnaissance par rapport aux approches précédemment proposés dans l'état-de-l ‘art.