Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes

Adrien Gaidon

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes

FR |

EN

Auteur / Autrice :	Adrien Gaidon
Direction :	Cordelia Schmid
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques
Date :	Soutenance le 25/10/2012
Etablissement(s) :	Grenoble
Ecole(s) doctorale(s) :	École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble, Isère, France ; 1995-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Jean Kunztmann
Jury :	Président / Présidente : Patrick Perez
	Examinateurs / Examinatrices : Cordelia Schmid, Ivan Laptev, Zaid Harchaoui
	Rapporteurs / Rapporteuses : Martial Hebert

Mots clés

FR |

EN

Mots clés libres

Reconnaissance d'Actions

Analyse de Vidéos

Vision par Ordinateur

Apprentissage Statistique

Résumé

FR |

EN

Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme ''ouvrir une porte'' ou ''courir'' dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses