Thèse soutenue

Apprendre des représentations vidéo efficaces pour la reconnaissance d'actions

FR  |  
EN
Auteur / Autrice : Di Yang
Direction : François Brémond
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/02/2024
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Matthieu Cord
Examinateurs / Examinatrices : François Brémond, Matthieu Cord, Jürgen Gall, Karteek Alahari, Wanli Ouyang
Rapporteurs / Rapporteuses : Jürgen Gall, Karteek Alahari

Résumé

FR  |  
EN

La reconnaissance des actions humaines est un domaine de recherche actif avec d'importantes contributions dans des applications telles que la surveillance à domicile, l'interaction homme-machine et le contrôle de jeux. Cependant, la reconnaissance des activités humaines dans des vidéos du monde réel reste un défi en matière d'apprentissage de représentations vidéo efficaces qui ont un pouvoir expressif élevé pour représenter le mouvement spatio-temporel humain, les actions invariantes par rapport à la vue, les actions complexes composables, etc. Pour relever ce défi, cette thèse apporte trois contributions à l'apprentissage de telles représentations vidéo efficaces. Les représentations apprises peuvent être appliquées et évaluées dans des tâches de classification et de segmentation d'actions humaines du monde réel par apprentissage par transfert. La première contribution vise à améliorer la généralisabilité des modèles de représentation du mouvement du squelette humain. Nous proposons un cadre unifié pour la reconnaissance des actions humaines du monde réel basée sur le squelette. Le cadre comprend un modèle de squelette novateur qui apprend efficacement des caractéristiques spatio-temporelles sur des séquences de squelette humain et généralise également entre les ensembles de données. De plus, le cadre introduit un ensemble de données de pré-entraînement novateur à grande échelle pour améliorer les représentations du squelette et bénéficier de l'apprentissage par transfert dans les tâches ultérieures de reconnaissance d'actions. La deuxième contribution étend le cadre proposé en introduisant deux nouveaux modèles d'apprentissage de la génération d'actions et de représentation conjointe du squelette pour différentes tâches ultérieures. La première méthode est un autoencodeur invariant à la vue pour l'apprentissage de la représentation d'actions du squelette en auto-supervisé, qui peut traiter de grandes variations entre les sujets et les points de vue de la caméra. La deuxième méthode est un cadre auto-supervisé pour l'apprentissage à partir de mouvements composables synthétisés pour la segmentation des actions basées sur le squelette. La troisième contribution porte sur la reconnaissance d'actions vidéo basée sur RGB générale. Plus précisément, une stratégie d'apprentissage par contraste paramétré par le temps est proposée. Elle capture les mouvements liés au temps pour améliorer la performance de la classification d'actions dans des tâches fines et orientées vers l'humain. Les résultats expérimentaux sur des ensembles de données de référence montrent que les approches proposées atteignent des performances de pointe dans les tâches de classification et de segmentation d'actions. Les modèles proposés améliorent la précision et l'interprétabilité de la reconnaissance des activités humaines et fournissent des informations sur la structure sous-jacente et la dynamique des actions humaines dans les vidéos. En fin de compte, cette thèse contribue au domaine de la compréhension des vidéos en proposant des méthodes novatrices pour l'apprentissage de la représentation d'actions basées sur le squelette et pour l'apprentissage de la représentation de vidéos RVB générales. De telles représentations bénéficient à la fois de la classification et de la segmentation d'actions.