Thèse soutenue

Adapter des modèles de recherche d'information basés sur les réseaux neuronauxprofonds pour les documents longs et les nouveaux domaines

FR  |  
EN
Auteur / Autrice : Minghan Li
Direction : Éric Gaussier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/07/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (Isère, France ; 2007-....)
Jury : Président / Présidente : Didier Schwab
Examinateurs / Examinatrices : Jaap Kamps, Sophie Rosset
Rapporteurs / Rapporteuses : Benjamin Piwowarski, Lynda Tamine-Lechani

Résumé

FR  |  
EN

À l'ère du big data, la recherche d'information (RI) joue un rôle central dans notre vie quotidienne. Les réseaux neuronaux profonds, plus précisément les modèles basés sur les Transformers, ont montré des améliorations remarquables dans la RI neuronale. Cependant, leur efficacité est limitée par certaines contraintes. Cette thèse vise à faire avancer la RI neuronale en abordant trois sujets clés : la recherche de documents longs pour les modèles basés sur les Transformers, l'adaptation de domaine pour la recherche dense et conversationnelle, ainsi qu'une nouvelle approximation différentiable des fonctions de perte listwise.Le premier sujet aborde le défi de la récupération d'informations pertinentes à partir de documents longs. Le mécanisme d'auto-attention a une complexité quadratique, ce qui rend difficile le traitement de documents longs par les modèles basés sur les Transformers. Cette thèse propose un cadre qui pré-classe les passages d'un document long en fonction de la requête, puis combine ou traite les passages les mieux classés pour obtenir le score de pertinence du document. Des expériences sur des collections de RI avec des modèles basés sur l'interaction et des modèles basés sur l'interaction tardive démontrent l'efficacité de l'état de l'art.Le deuxième sujet explore l'adaptation de domaine pour la recherche dense et la recherche conversationnelle. La capacité de généralisation des modèles de recherche dense sur les domaines cibles est limitée. Cette thèse propose une approche d'auto-supervision qui génère des étiquettes de pseudo-pertinence pour les requêtes et les documents du domaine cible, en utilisant un modèle T5-3B à partir d'une liste BM25. Différentes stratégies d'extraction de données négatives sont étudiées pour améliorer cette approche. La recherche conversationnelle est un défi car le système doit comprendre l'intention ambiguë de l'utilisateur à chaque tour de requête, et l'obtention d'étiquettes pour les ensembles de données cibles est difficile. Les approches existantes pour l'entraînement des modèles de recherche dense conversationnelle peuvent être améliorées pour résoudre le problème du décalage de domaine. Cette thèse utilise un modèle T5-Large pour générer des requêtes réécrites pour les ensembles de données cibles et applique une approche similaire à celle de la recherche dense pour générer des données de pseudo-pertinence. Les résultats des expériences montrent que l'approche d'étiquetage de pseudo-pertinence améliore les modèles de recherche dense et conversationnelle sur le domaine cible lorsqu'ils sont entraînés sur les données générées.Le troisième sujet se concentre sur l'utilisation de fonctions de perte listwise pour l'apprentissage du classement en RI. Les métriques populaires en RI ne sont pas différentiables, ce qui limite le potentiel d'entraînement de modèles de RI plus performants. Cette thèse propose une approximation basée sur le softmax de la fonction indicatrice de rang, un composant clé dans la conception des métriques de RI. Les expériences sur l'apprentissage du classement et les tâches basées sur le texte en RI démontrent la bonne qualité des approximations proposées des métriques de RI.Dans l'ensemble, cette thèse propose des approches novatrices pour relever les défis importants de la RI. Les approches proposées montrent des améliorations et fournissent des perspectives précieuses pour le développement de systèmes de RI efficaces.