Approches jointes texte/image pour la compréhension multimodale de documents

Sébastien Delecraz

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Approches jointes texte/image pour la compréhension multimodale de documents

FR |

EN

Auteur / Autrice :	Sébastien Delecraz
Direction :	Frédéric Béchet, Benoît Favre
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 10/12/2018
Etablissement(s) :	Aix-Marseille
Ecole(s) doctorale(s) :	École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d’Informatique et Systèmes (Marseille ; La Garde, Var ; 2018-….)
Jury :	Président / Présidente : Yannick Estève
	Examinateurs / Examinatrices : Meriem Bendris, Lauriane Aufrant, Alexis Nasr
	Rapporteur / Rapporteuse : Benoît Sagot, Guillaume Gravier

Mots clés

FR |

EN

Mots clés contrôlés

Récepteurs sensoriels

Traitement automatique du langage naturel

Réseaux neuronaux (informatique)

Apprentissage automatique

Mots clés libres

Compréhension multimodale

Apprentissage automatique multimodal

Réseaux de neurones profonds

Traitement automatique des langues

Traitement automatique de l'image

Résumé

FR |

EN

Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Approches jointes texte/image pour la compréhension multimodale de documents

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Approches jointes texte/image pour la compréhension multimodale de documents

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses