Towards Effective, Efficient and Explainable Neural Information Retrieval

Thibault Formal

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Vers une recherche d'information neuronale efficace, efficiente et interprétable

FR |

EN

Auteur / Autrice :	Thibault Formal
Direction :	Benjamin Piwowarski, Stéphane Clinchant
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 27/04/2023
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury :	Président / Présidente : Xavier Tannier
	Examinateurs / Examinatrices : Andrew Yates
	Rapporteurs / Rapporteuses : Sophie Rosset, Éric Gaussier

Mots clés

FR |

EN

Mots clés contrôlés

Indexation automatique

Représentation parcimonieuse

Réseaux neuronaux (informatique)

Recherche de l'information

Mots clés libres

Recherche d'information

Réseaux de neurones

Représentations parcimonieuses

Indexation

Interprétabilité

Analyse

Résumé

FR |

EN

La Recherche d'Information connaît actuellement un changement de paradigme. Les approches traditionnelles basées sur les mots-clés sont concurrencées par une nouvelle génération de modèles neuronaux de classement basés sur des Modèles de Langue Pré-entraînés. Ces approches sont à même de représenter le contenu des documents et des requêtes au-delà des mots qu'ils utilisent, offrant ainsi la promesse d'une expérience de recherche véritablement sémantique. Au fur et à mesure que leur taille augmente, ces modèles deviennent de plus en plus opaques - ce qui constitue un véritable obstacle à leur adoption dans les moteurs de recherche commerciaux, qui sont confrontés à la nécessité de fournir aux utilisateurs des résultats transparents, fiables et interprétables. Dans cette thèse, nous proposons tout d'abord une approche originale au problème de la recherche ad-hoc en apprenant à représenter les requêtes et les documents comme des vecteurs parcimonieux dans l'espace du vocabulaire. Il en résulte un modèle efficace, efficient, robuste, et dont les représentations peuvent être interprétées. Nous proposons ensuite d'analyser les modèles neuronaux de classement, en nous concentrant sur la correspondance lexicale et l'importance des termes. Nous montrons d'abord comment ColBERT - une approche de pointe - s'appuie sur ces aspects malgré sa nature sémantique. Nous étendons les résultats à d'autres modèles en montrant que la capacité à effectuer une correspondance par mot-clés dépend de l'architecture et est fortement influencée par la présence des termes des requêtes dans l'ensemble d'apprentissage, remettant ainsi en question les capacités de généralisation de ces modèles.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Vers une recherche d'information neuronale efficace, efficiente et interprétable

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Vers une recherche d'information neuronale efficace, efficiente et interprétable

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses