Thèse soutenue

Modélisation structurée et reconnaissance des actions humaines dans les vidéos

FR  |  
EN
Auteur / Autrice : Guilhem Chéron
Direction : Ivan LaptevCordelia Schmid
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/12/2018
Etablissement(s) : Paris Sciences et Lettres (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Equipe de recherche : Équipe de recherche Models of visual object recognition and scene understanding (Paris) - Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère ; 2019-....)
Jury : Président / Présidente : Jürgen Gall
Examinateurs / Examinatrices : Ivan Laptev, Cordelia Schmid, Jürgen Gall, Patrick Pérez, Cees G. M. Snoek, Jean Ponce
Rapporteurs / Rapporteuses : Patrick Pérez, Cees G. M. Snoek

Résumé

FR  |  
EN

La compréhension automatique de vidéos devrait impacter notre vie de tous les jours dans de nombreux domaines comme la conduite autonome, les robots domestiques, la recherche et le filtrage de contenu, les jeux vidéo, la défense ou la sécurité. Le nombre de vidéos croît plus vite chaque année, notamment sur les plateformes telles que YouTube, Twitter ou Facebook. L’analyse automatique de ces données est indispensable pour permettre à de nouvelles applications de voir le jour. L’analyse vidéo, en particulier en environnement non contrôlé, se heurte à plusieurs problèmes comme la variabilité intra-classe (les échantillons d’un même concept paraissent très différents) ou la confusion inter-classe (les exemples provenant de deux activités distinctes se ressemblent). Bien que ces difficultés puissent être traitées via des algorithmes d’apprentissage supervisé, les méthodes pleinement supervisées sont souvent synonymes d’un coût d’annotation élevé. Dépendant à la fois de la tâche à effectuer et du niveau de supervision requis, la quantité d’annotations nécessaire peut être prohibitive. Dans le cas de la localisation d’actions, une approche pleinement supervisée nécessite les boîtes englobantes de l’acteur à chaque image où l’action est effectuée. Le coût associé à l’obtention d’un telle annotation empêche le passage à l’échelle et limite le nombre d’échantillons d’entraînement. Trouver un consensus entre les annotateurs est également difficile et mène à des ambiguïtés dans l’étiquetage (Où commence l’action ? Quand se termine-t-elle ? Que doit inclure la boîte englobante ? etc.). Cette thèse adresse les problèmes évoqués ci-dessus dans le contexte de deux tâches, la classification et la localisation d’actions humaines. La classification consiste à reconnaître l’activité effectuée dans une courte vidéo limitée à la durée de l’action. La localisation a pour but de détecter en temps et dans l’espace des activités effectuées dans de plus longues vidéos. Notre approche pour la classification d’actions tire parti de l’information contenue dans la posture humaine et l’intègre avec des descripteurs d’apparence et de mouvement afin d’améliorer les performances. Notre approche pour la localisation d’actions modélise l’évolution temporelle des actions à l’aide d’un réseau récurrent entraîné à partir de suivis de personnes. Enfin, la troisième méthode étudiée dans cette thèse a pour but de contourner le coût prohibitif des annotations de vidéos et utilise le regroupement discriminatoire pour analyser et combiner différents types de supervision.