Répondre aux questions visuelles à propos d'entités nommées

Paul Lerner

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Répondre aux questions visuelles à propos d'entités nommées

FR |

EN

Auteur / Autrice :	Paul Lerner
Direction :	Olivier Ferret, Camille Guinaudeau
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 08/11/2023
Etablissement(s) :	université Paris-Saclay
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
	référent : Faculté des sciences d'Orsay
	graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury :	Président / Présidente : Pierre Zweigenbaum
	Examinateurs / Examinatrices : Josiane Mothe, Philippe Mulhem, Michel Crucianu, Ewa Kijak
	Rapporteurs / Rapporteuses : Josiane Mothe, Philippe Mulhem

Mots clés

FR |

EN

Mots clés contrôlés

Multimédias

Traitement automatique du langage naturel

Apprentissage automatique

Recherche de l'information

Mots clés libres

Questions visuelles

Recherche d'information multimodale

Apprentissage de représentation

Entités nommées

Pré-entraînement

Système de question-réponse

Résumé

FR |

EN

Cette thèse se positionne à l'intersection de plusieurs domaines de recherche, le traitement automatique des langues, la Recherche d'Information (RI) et la vision par ordinateur, qui se sont unifiés autour des méthodes d'apprentissage de représentation et de pré-entraînement. Dans ce contexte, nous avons défini et étudié une nouvelle tâche multimodale : répondre aux questions visuelles à propos d'entités nommées (KVQAE). Dans ce cadre, nous nous sommes particulièrement intéressés aux interactions cross-modales et aux différentes façons de représenter les entités nommées. Nous avons également été attentifs aux données utilisées pour entraîner mais surtout évaluer les systèmes de question-réponse à travers différentes métriques. Plus précisément, nous avons proposé à cet effet un jeu de données, le premier de KVQAE comprenant divers types d'entités. Nous avons également défini un cadre expérimental pour traiter la KVQAE en deux étapes grâce à une base de connaissances non-structurée et avons identifié la RI comme principal verrou de la KVQAE, en particulier pour les questions à propos d'entités non-personnes. Afin d'améliorer l'étape de RI, nous avons étudié différentes méthodes de fusion multimodale, lesquelles sont pré-entraînées à travers une tâche originale : l'Inverse Cloze Task multimodale. Nous avons trouvé que ces modèles exploitaient une interaction cross-modale que nous n'avions pas considéré à l'origine, et qui permettrait de traiter l'hétérogénéité des représentations visuelles des entités nommées. Ces résultats ont été renforcés par une étude du modèle CLIP qui permet de modéliser cette interaction cross-modale directement. Ces expériences ont été menées tout en restant attentif aux biais présents dans le jeu de données ou les métriques d'évaluation, notamment les biais textuels qui affectent toute tâche multimodale.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Répondre aux questions visuelles à propos d'entités nommées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Répondre aux questions visuelles à propos d'entités nommées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses