Apprentissage multimodal pour la compréhension vidéo centrée sur le scénario
Auteur / Autrice : | Ridouane Ghermi |
Direction : | Vicky Kalogeiton |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Inscription en doctorat le 01/12/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : LIX - Laboratoire d'informatique |
Mots clés
Mots clés libres
Résumé
Les modèles vision-langage ont récemment fait l'objet d'un grand intérêt, grâce à des applications telles que les chatbots (ChatGPT est capable de répondre à des questions à propos d'une image) et les modèles génératifs (DALL-E génère des images à partir d'entrées textuelles). Cependant, ces approches ont encore du mal à traiter les vidéos. L'état de l'art actuel en matière de compréhension vidéo est principalement axé sur l'analyse ou la génération de courts clips vidéo. Dans ce projet, nous souhaitons explorer la compréhension de vidéos à long terme et centrée sur le scénario. En particulier, nous nous intéressons aux films, car il s'agit de vidéos longues et riches qui ne sont pas triviales à analyser. Les principaux objectifs de ce projet sont (i) de créer une base de données de référence pertinente pour évaluer les modèles de compréhension vidéo à long terme, (ii) de démontrer que les méthodes actuelles ne sont pas adaptées au traitement des vidéos longues, et (iii) de concevoir des méthodes multimodales innovantes pour gérer la complexité des films.