Thèse soutenue

Apprentissage multi-modal pour la compréhension de vidéos

FR  |  
EN
Auteur / Autrice : Valentin Gabeur
Direction : Karteek AlahariCordelia Schmid
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/10/2022
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère ; 2019-....)
Jury : Président / Présidente : Éric Gaussier
Examinateurs / Examinatrices : Florian Metze
Rapporteurs / Rapporteuses : Josef Sivic, Andrea Vedaldi

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Avec la consommation toujours croissante de contenu audiovisuel sur Internet, la compréhension automatique de vidéos est devenue un problème important afin de proposer aux utilisateurs le contenu qui correspond à leurs attentes. Comparé aux médias plus traditionnels, le signal vidéo est intrinsèquement multimodal, ses informations sont réparties entre plusieurs modalités telles que la parole, l'audio ou la vision. Cette thèse vise à concevoir et entraîner des modèles d'apprentissage profond capables d'exploiter ces différentes modalités pour comprendre automatiquement le contenu vidéo.Bien que des modèles d'apprentissage particulièrement performants aient été développés pour les problèmes unimodaux, le traitement des données multimodales telles que la vidéo a reçu comparativement moins d'attention. Dans la première partie de ce manuscrit, nous introduisons une architecture basée sur un transformer qui exploite des descripteurs unimodaux pré-extraits à différents moments de la vidéo et les fusionne en une unique représentation. Bénéficiant du mécanisme d'attention, nous montrons que notre modèle est capable de traiter le signal vidéo à travers ses différentes modalités ainsi que temporellement. Nous couplons notre encodeur vidéo avec un encodeur de texte dans une architecture intermodale et établissons un nouvel état de l'art pour la tâche de recherche texte-vidéo sur trois jeux de données.L'entraînement d'un tel modèle nécessite cependant une grande quantité de vidéos manuellement annotées. Afin de tirer parti des milliards de vidéos non annotées disponibles sur Internet, l'approche courante a été d'utiliser les mots prononcés dans la séquence comme supervision pour pré-entraîner un encodeur vidéo sur les autres modalités. Bien que l'encodeur résultant soit capable de traiter les informations visuelles et sonores, il n'a pas été entraîné à exploiter le discours oral des vidéos. Dans la deuxième partie de ce manuscrit, nous proposons une méthode pour pré-entraîner un encodeur multimodal sur toutes les modalités vidéo, y compris la parole. A chaque étape d'entraînement, nous masquons entièrement une modalité différente de l'entrée de l'encodeur et l'utilisons comme supervision. Nous affinons notre modèle sur la tâche de recherche de vidéos et montrons que notre approche est particulièrement adaptée aux jeux de données où les requêtes des utilisateurs concernent le discours prononcé dans la vidéo.Extraire la transcription du signal audio peut être difficile, en particulier lorsqu'il est bruité. Dans le cas d'un contenu audiovisuel, la modalité visuelle peut fournir des indices précieux pour mieux extraire la parole des vidéos. Dans la troisième partie de ce manuscrit, nous introduisons une architecture encodeur-décodeur ainsi qu'une stratégie de pré-apprentissage pour entraîner un modèle de reconnaissance vocale non seulement sur le signal audio, mais également sur le signal visuel. Nous évaluons la contribution de notre approche sur un jeu de données de test qui démontre la contribution de la modalité visuelle pour la reconnaissance de la parole dans des conditions audio difficiles.