Thèse en cours

Prédiction vidéo

FR  |  
EN
Auteur / Autrice : Gabriel Fiastre
Direction : Cordelia Schmid
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/09/2023
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
Equipe de recherche : WILLOW
établissement opérateur d'inscription : Ecole normale supérieure

Résumé

FR  |  
EN

La thèse s'articulera autour de la prédiction vidéo, une tâche complexe et à fort impact dans des domaines appliqués (conduite autonome) comme théoriques (apprentissage auto-supervisé, augmentation de données). On considèrera notamment une nouvelle approche au problème, en s'intéressant dans un premier temps aux représentations dites ''object-centric''. Cette idée, récemment devenue populaire (dans un contexte non supervisé notamment), consiste à séparer les informations représentant une image ou vidéo en objets : la scène est décomposée en objets et peut être représentée dans son ensemble comme une composition de ceux-ci. Cette approche, plus alignée avec la perception humaine, permet d'apprendre des représentations robustes, apportant de la performance dans différentes tâches non supervisées comme la segmentation d'objets (Object Discovery) tout en étant sémantiquement interprétable. On considérera dans un premier temps l'amélioration de ces modèles et l'application au domaine de la vidéo avant de s'intéresser à leur application dans un contexte de vidéo prédiction, en utilisant par exemple les représentations pour raisonner sur les objets.