Deep Multimodal Learning for Vision and Language Processing

Rémi Cadène

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage multimodal profond pour le traitement de la vision et du langage

FR |

EN

Auteur / Autrice :	Rémi Cadène
Direction :	Matthieu Cord, Nicolas Thome
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 08/07/2020
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : LIP6 (1997-....)
Jury :	Président / Présidente : Patrick Gallinari
	Examinateurs / Examinatrices : Eduardo Alves do Valle Junior, Thomas Serre
	Rapporteurs / Rapporteuses : Gabriela Csurka, Ivan Laptev

Mots clés

FR |

EN

Mots clés contrôlés

Interaction multimodale

Traitement automatique du langage naturel

Vision par ordinateur

Réseaux neuronaux (informatique)

Traitement d'images -- Techniques numériques

Apprentissage profond

Mots clés libres

Apprentissage profond

Résumé

FR |

EN

Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d’automatiser le traitement de la quantité croissante d’images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adopté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l’intersection entre vision et langage. Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d’apprentissage pour aligner efficacement les deux modalités tout en structurant l’espace de recherche avec de l’information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations par paires entre chaque région de l’image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d’apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage multimodal profond pour le traitement de la vision et du langage

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage multimodal profond pour le traitement de la vision et du langage

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses