Thèse soutenue

Encodages multiples pour une représentation et une recherche par le contenu explicables de documents multimédia

FR  |  
EN
Auteur / Autrice : Varsha Devi
Direction : Georges QuénotPhilippe Mulhem
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/12/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (2007-....)
Equipe de recherche : Modélisation et recherche d'information multimédia (Grenoble)
Jury : Président / Présidente : Danielle Ziébelin
Examinateurs / Examinatrices : Alexandre Benoît
Rapporteurs / Rapporteuses : Jean Martinet, Stéphane Ayache

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse se penche sur le domaine de la recherche d'informations multimédias, avec un accent particulier sur la recherche conjointe de vidéos et de textes, appelée vidéo-texte. À l'ère du contenu multimédia vaste et diversifié sur Internet, la recherche de vidéos ou de textes pertinents est devenue un problème difficile. Avant 2012, les approches traditionnelles basées sur les mots-clés pour la recherche de vidéos et de textes étaient inefficaces et dépendaient fortement des annotations humaines. Avec l'avènement des modèles d'apprentissage profond, la performance des systèmes de recherche de vidéos et de textes a largement augmenté. Dans cette thèse, nous examinons trois approches pour la recherche de vidéo-textes : l'approche basée sur les concepts, qui utilise des concepts visuels prédéfinis et une banque de concepts ; l'approche sans concept, qui extrait directement des modèles à partir de données multimédias ; et l'approche hybride, qui combine des éléments des stratégies basées sur les concepts et des stratégies sans concept.L'objectif principal de cette thèse de doctorat est de former et de développer un modèle hybride basé sur l'espace latent et l'espace conceptuel et d'effectuer les tâches de recherche et de classification simultanément, tout en fournissant des explications causales pour les résultats obtenus. Ce modèle de recherche basé sur la causalité vise à améliorer la compréhension du processus de prise de décision par l'utilisateur sans impacter négativement les performances.Cette thèse explore les éléments fondamentaux de la recherche vidéo-texte, en soulignant les défis que posent l'alignement et la recherche d'informations à travers des modalités multiples. Dans la recherche vidéo-texte, l'ambiguïté des requêtes et les banques de concepts prédéfinies peuvent rendre difficile la compréhension précise de l'intention de l'utilisateur. Afin de mieux comprendre l'intention de la requête de l'utilisateur et de surmonter le problème de l'ambiguïté, dans la deuxième partie de cette thèse, nous étendons une approche hybride état de l’art en intégrant les balises Part-of-Speech (PoS) dans le modèle d'encodage double pour la recherche de vidéotexte. Nous étudions l'impact des balises PoS sur les performances et l'explicabilité des résultats de la recherche de vidéo-texte et montrons les avantages de l'utilisation des balises PoS pour améliorer la précision de la recherche, la précision et les performances globales du système.Dans la troisième partie de ce travail, nous proposons un cadre général pour l'analyse des relations entre les différents espaces de représentations d’approches hybrides, l'espace (non-explicable) latent et l'espace (explicable) conceptuel, afin de comprendre dans quelle mesure les espaces explicables se différencient des non-explicables.En outre, la thèse se lance dans une exploration complète de la complémentarité entre ces espaces.Dans l’exploration sur l'explicabilité, la partie des modèles hybrides basée sur les concepts joue un rôle primordial. Elle identifie et extrait des concepts sémantiques à partir de données vidéo et textuelles, visualisées par des nuages de tags, ce qui rend le processus de recherche plus facile à interpréter et à comprendre. Les modèles actuels de l'état de l'art fournissent des explications à l'aide de nuages de mots-clés, mais les explications fournies ne sont pas causales. La dernière partie de cette thèse aborde le problème des l'explications visuelles causales et interprétables pour la recherche vidéo-texte. En fournissant une représentation visuelle des relations causales entre la requête et les résultats récupérés, les nuages de tags renforcent la confiance des utilisateurs et soutiennent les applications où la responsabilité et la perspicacité sont primordiales.