Thèse soutenue

Vers une recherche d'information neuronale efficace, efficiente et interprétable

FR  |  
EN
Auteur / Autrice : Thibault Formal
Direction : Benjamin PiwowarskiStéphane Clinchant
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/04/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Xavier Tannier
Examinateurs / Examinatrices : Andrew Yates
Rapporteurs / Rapporteuses : Sophie Rosset, Éric Gaussier

Résumé

FR  |  
EN

La Recherche d'Information connaît actuellement un changement de paradigme. Les approches traditionnelles basées sur les mots-clés sont concurrencées par une nouvelle génération de modèles neuronaux de classement basés sur des Modèles de Langue Pré-entraînés. Ces approches sont à même de représenter le contenu des documents et des requêtes au-delà des mots qu'ils utilisent, offrant ainsi la promesse d'une expérience de recherche véritablement sémantique. Au fur et à mesure que leur taille augmente, ces modèles deviennent de plus en plus opaques - ce qui constitue un véritable obstacle à leur adoption dans les moteurs de recherche commerciaux, qui sont confrontés à la nécessité de fournir aux utilisateurs des résultats transparents, fiables et interprétables. Dans cette thèse, nous proposons tout d'abord une approche originale au problème de la recherche ad-hoc en apprenant à représenter les requêtes et les documents comme des vecteurs parcimonieux dans l'espace du vocabulaire. Il en résulte un modèle efficace, efficient, robuste, et dont les représentations peuvent être interprétées. Nous proposons ensuite d'analyser les modèles neuronaux de classement, en nous concentrant sur la correspondance lexicale et l'importance des termes. Nous montrons d'abord comment ColBERT - une approche de pointe - s'appuie sur ces aspects malgré sa nature sémantique. Nous étendons les résultats à d'autres modèles en montrant que la capacité à effectuer une correspondance par mot-clés dépend de l'architecture et est fortement influencée par la présence des termes des requêtes dans l'ensemble d'apprentissage, remettant ainsi en question les capacités de généralisation de ces modèles.