Apprentissage multimodal pour la compréhension vidéo centrée sur le scénario

Ridouane Ghermi

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage multimodal pour la compréhension vidéo centrée sur le scénario

FR |

EN

Auteur / Autrice :	Ridouane Ghermi
Direction :	Vicky Kalogeiton
Type :	Projet de thèse
Discipline(s) :	Informatique, données, IA
Date :	Inscription en doctorat le 01/12/2023
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : LIX - Laboratoire d'informatique

Mots clés

FR |

EN

Mots clés libres

Compréhension de video

Scénario

Long terme

Résumé

FR |

EN

Les modèles vision-langage ont récemment fait l'objet d'un grand intérêt, grâce à des applications telles que les chatbots (ChatGPT est capable de répondre à des questions à propos d'une image) et les modèles génératifs (DALL-E génère des images à partir d'entrées textuelles). Cependant, ces approches ont encore du mal à traiter les vidéos. L'état de l'art actuel en matière de compréhension vidéo est principalement axé sur l'analyse ou la génération de courts clips vidéo. Dans ce projet, nous souhaitons explorer la compréhension de vidéos à long terme et centrée sur le scénario. En particulier, nous nous intéressons aux films, car il s'agit de vidéos longues et riches qui ne sont pas triviales à analyser. Les principaux objectifs de ce projet sont (i) de créer une base de données de référence pertinente pour évaluer les modèles de compréhension vidéo à long terme, (ii) de démontrer que les méthodes actuelles ne sont pas adaptées au traitement des vidéos longues, et (iii) de concevoir des méthodes multimodales innovantes pour gérer la complexité des films.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage multimodal pour la compréhension vidéo centrée sur le scénario

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage multimodal pour la compréhension vidéo centrée sur le scénario

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses