Thèse soutenue

Localisation faiblement supervisée des actions orientées vers un but

FR  |  
EN
Auteur / Autrice : Dimitri Zhukov
Direction : Ivan Laptev
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/12/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
Equipe de recherche : Équipe de recherche Models of visual object recognition and scene understanding (Paris)
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Matthieu Cord
Examinateurs / Examinatrices : Ivan Laptev, Matthieu Cord, Efstratios Gavves, Jason Corso, Josef Sivic, Gül Varol
Rapporteur / Rapporteuse : Efstratios Gavves, Jason Corso

Résumé

FR  |  
EN

Le but de cette thèse est de développer des méthodes pour la compréhension automatique des vidéos d'instructions, qui démontrent des tâches humaines, comme, par exemple, faire une omelette ou accrocher une peinture. Nous proposons, d’abord, une méthode d'apprentissage des actions seulement à partir d'un script pour chaque tâche, au lieu des annotations manuelles. Notre modèle permet de réduire la quantité de données d'entraînement, en partageant l’information entre les tâches. Nous évaluons notre approche sur un nouveau jeu de données, CrossTask. Nous présentons, ensuite, une méthode non supervisée pour isoler les actions, liée à une tâche de leur contexte. Finalement, nous proposons une approche pour associer des instructions textuelles avec des objets correspondants dans la scène 3D, reconstruite à partir des vidéos.