Multi-modal representation learning towards visual reasoning | Theses.fr

Hedi Ben-Younes

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage de représentation multi-modale et raisonnement visuel

FR |

EN

Auteur / Autrice :	Hedi Ben-Younes
Direction :	Matthieu Cord, Nicolas Thome
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 20/05/2019
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche :	Laboratoire : LIP6 (1997-....)
Jury :	Président / Présidente : Patrick Pérez
	Examinateurs / Examinatrices : Yann Le Cun, Vittorio Ferrari, Laure Soulier
	Rapporteurs / Rapporteuses : Jakob Verbeek, Christian Wolf

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Apprentissage profond

Reconnaissance des formes (informatique)

Vision par ordinateur

Mots clés libres

Apprentissage profond

Vision artificielle

Visual question answering

Représentation multi-modale

Intelligence artificielle

Vision artificielle

Résumé

FR |

EN

La quantité d'images présentes sur internet augmente considérablement, et il est nécessaire de développer des techniques permettant le traitement automatique de ces contenus. Alors que les méthodes de reconnaissance visuelle sont de plus en plus évoluées, la communauté scientifique s'intéresse désormais à des systèmes aux capacités de raisonnement plus poussées. Dans cette thèse, nous nous intéressons au Visual Question Answering (VQA), qui consiste en la conception de systèmes capables de répondre à une question portant sur une image. Classiquement, ces architectures sont conçues comme des systèmes d'apprentissage automatique auxquels on fournit des images, des questions et leur réponse. Ce problème difficile est habituellement abordé par des techniques d'apprentissage profond. Dans la première partie de cette thèse, nous développons des stratégies de fusion multimodales permettant de modéliser des interactions entre les représentations d'image et de question. Nous explorons des techniques de fusion bilinéaire, et assurons l'expressivité et la simplicité des modèles en utilisant des techniques de factorisation tensorielle. Dans la seconde partie, on s'intéresse au raisonnement visuel qui encapsule ces fusions. Après avoir présenté les schémas classiques d'attention visuelle, nous proposons une architecture plus avancée qui considère les objets ainsi que leurs relations mutuelles. Tous les modèles sont expérimentalement évalués sur des jeux de données standards et obtiennent des résultats compétitifs avec ceux de la littérature.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage de représentation multi-modale et raisonnement visuel

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage de représentation multi-modale et raisonnement visuel

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses