Deep Learning Based Multimodal Retrieval

Jianan Chen

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Recherche multimodale basée sur l’apprentissage profond

FR |

EN

Auteur / Autrice :	Jianan Chen
Direction :	Kidiyo Kpalma, Lu Zhang
Type :	Thèse de doctorat
Discipline(s) :	Signal, Image, Vision
Date :	Soutenance le 17/10/2023
Etablissement(s) :	Rennes, INSA
Ecole(s) doctorale(s) :	École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....)
Partenaire(s) de recherche :	Laboratoire : Institut d'Électronique et de Télécommunications (Rennes)
Jury :	Président / Présidente : Didier Coquin
	Examinateurs / Examinatrices : Kidiyo Kpalma, Lu Zhang, Didier Coquin, Adrian Munteanu, Giuseppe Valenzise, Ewa Kijak
	Rapporteurs / Rapporteuses : Adrian Munteanu, Giuseppe Valenzise

Mots clés

FR |

EN

Mots clés contrôlés

Bases de données -- Interrogation

Traitement d'images -- Techniques numériques

Informatique

Apprentissage profond

Intelligence artificielle

Mots clés libres

Intelligence artificielle

Apprentissage profond

Recherche multimodale

Ensemble de données multimodal

Résumé

FR |

EN

Les tâches multimodales jouent un rôle crucial dans la progression vers l'atteinte de l'intelligence artificielle (IA) générale. L'objectif principal de la recherche multimodale est d'exploiter des algorithmes d'apprentissage automatique pour extraire des informations sémantiques pertinentes, en comblant le fossé entre différentes modalités telles que les images visuelles, le texte linguistique et d'autres sources de données. Il convient de noter que l'entropie de l'information associée à des données hétérogènes pour des sémantiques de haut niveau identiques varie considérablement, ce qui pose un défi important pour les modèles multimodaux. Les modèles de réseau multimodal basés sur l'apprentissage profond offrent une solution efficace pour relever les difficultés découlant des différences substantielles d'entropie de l’information. Ces modèles présentent une précision et une stabilité impressionnantes dans les tâches d'appariement d'informations multimodales à grande échelle, comme la recherche d'images et de textes. De plus, ils démontrent de solides capacités d'apprentissage par transfert, permettant à un modèle bien entraîné sur une tâche multimodale d'être affiné et appliqué à une nouvelle tâche multimodale. Dans nos recherches, nous développons une nouvelle base de données multimodale et multi-vues générative spécifiquement conçue pour la tâche de segmentation référentielle multimodale. De plus, nous établissons une référence de pointe (SOTA) pour les modèles de segmentation d'expressions référentielles dans le domaine multimodal. Les résultats de nos expériences comparatives sont présentés de manière visuelle, offrant des informations claires et complètes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Recherche multimodale basée sur l’apprentissage profond

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Recherche multimodale basée sur l’apprentissage profond

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses