Thèse en cours

Apprentissage multimodal pour la compréhension vidéo centrée sur le scénario

FR  |  
EN
Auteur / Autrice : Ridouane Ghermi
Direction : Vicky Kalogeiton
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 01/12/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : LIX - Laboratoire d'informatique

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les modèles vision-langage ont récemment fait l'objet d'un grand intérêt, grâce à des applications telles que les chatbots (ChatGPT est capable de répondre à des questions à propos d'une image) et les modèles génératifs (DALL-E génère des images à partir d'entrées textuelles). Cependant, ces approches ont encore du mal à traiter les vidéos. L'état de l'art actuel en matière de compréhension vidéo est principalement axé sur l'analyse ou la génération de courts clips vidéo. Dans ce projet, nous souhaitons explorer la compréhension de vidéos à long terme et centrée sur le scénario. En particulier, nous nous intéressons aux films, car il s'agit de vidéos longues et riches qui ne sont pas triviales à analyser. Les principaux objectifs de ce projet sont (i) de créer une base de données de référence pertinente pour évaluer les modèles de compréhension vidéo à long terme, (ii) de démontrer que les méthodes actuelles ne sont pas adaptées au traitement des vidéos longues, et (iii) de concevoir des méthodes multimodales innovantes pour gérer la complexité des films.