Prédiction vidéo
Auteur / Autrice : | Gabriel Fiastre |
Direction : | Cordelia Schmid |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/09/2023 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
Equipe de recherche : WILLOW | |
établissement opérateur d'inscription : Ecole normale supérieure |
Mots clés
Résumé
La thèse s'articulera autour de la prédiction vidéo, une tâche complexe et à fort impact dans des domaines appliqués (conduite autonome) comme théoriques (apprentissage auto-supervisé, augmentation de données). On considèrera notamment une nouvelle approche au problème, en s'intéressant dans un premier temps aux représentations dites ''object-centric''. Cette idée, récemment devenue populaire (dans un contexte non supervisé notamment), consiste à séparer les informations représentant une image ou vidéo en objets : la scène est décomposée en objets et peut être représentée dans son ensemble comme une composition de ceux-ci. Cette approche, plus alignée avec la perception humaine, permet d'apprendre des représentations robustes, apportant de la performance dans différentes tâches non supervisées comme la segmentation d'objets (Object Discovery) tout en étant sémantiquement interprétable. On considérera dans un premier temps l'amélioration de ces modèles et l'application au domaine de la vidéo avant de s'intéresser à leur application dans un contexte de vidéo prédiction, en utilisant par exemple les représentations pour raisonner sur les objets.