Thèse soutenue

Deep Learning pour la recherche d'information : étudier les signaux pertinents pour la recherche ad hoc basée sur les modèles de transformers

FR  |  
EN
Auteur / Autrice : Lila Boualili
Direction : Mohand BoughanemJosé G. Moreno
Type : Thèse de doctorat
Discipline(s) : Image, Information, Hypermédia
Date : Soutenance le 23/11/2022
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury : Président / Présidente : Lynda Tamine-Lechani
Examinateurs / Examinatrices : Sylvain Lamprier
Rapporteurs / Rapporteuses : Gabriella Pasi, Éric Gaussier

Résumé

FR  |  
EN

Au cours de la dernière décennie, les modèles neuronaux profonds ont amélioré substantiellement plusieurs tâches de Traitement Automatique des Langues (TAL). Ces réseaux ont été utilisés pour apprendre des représentations vectorielles continues du texte, capables de modéliser leur sémantique. Plusieurs modèles neuronaux ont ainsi été adaptés de ceux conçus pour les tâches de TAL afin de répondre à différentes tâches de Recherche d'Informations (RI) telles que la recherche ad~hoc. Cependant, les améliorations en RI sont restées à la traîne par rapport à des tâches similaires en TAL malgré les efforts de la communauté. Une des raisons de cet "échec" provient des caractéristiques uniques de la tâche de recherche en RI, en particulier, lorsqu'on la compare aux tâches d'appariement de textes en TAL. En effet, en RI, à travers l'appariement document-requête on cherche à modéliser la pertinence du document vis-à-vis d'une requête. On ne cherche pas à calculer la proximité sémantique entre les mots de la requête et du document. Or, c'est précisément, ce que réalise la majorité des modèles neuronaux dans les tâches de TAL. Récemment, les Modèles de Langue Pré-entraînés (MLPs), dont BERT est l'exemple le plus célèbre, qui sont capables d'apprendre des représentations de mots dans leurs contextes, ont obtenu des résultats de pointe dans la recherche ad~hoc avec de larges marges de performance. Bien que les modèles de recherche basés sur les MLPs soient également adaptés de tâches similaires d'appariement de phrases en TAL, ils se sont avérés efficaces contrairement aux tentatives précédentes. Ce succès sans précédent peut être attribué à la grande quantité de pré-entrainement sur des objectifs de modélisation du langage, et à la flexibilité du processus de contextualisation dans les transformers. Mais aussi au fine-tuning sur de larges quantités de données labellisées disponibles publiquement pour la tâche de recherche. Dans cette thèse, nous nous intéressons à l'adaptation des éminents MLPs à la tâche spécifique de la recherche ad~hoc. Nous explorons différentes pistes de recherche pour construire de meilleurs modèles de RI basés : (1) explorer l'impact de l'intégration de l'intuition traditionnelle d'appariement exact sur l'efficacité des MLPs pour la recherche ad~hoc ; (2) étudier le rôle du processus de contextualisation pour la recherche ad~hoc afin de mieux comprendre ce qui est important pour cette tâche, ce qui pourrait motiver des reconceptions plus efficaces des MLPs spécifiques à la RI. En premier, nous proposons de considérer l'appariement exact qui est une intuition traditionnelle importante pour la recherche ad~hoc et qui a été utilisée en RI pendant des décennies jusqu'à très récemment dans les modèles neuronaux pré-BERT. Au lieu de construire des modèles neuronaux plus grands ou d'améliorer leur supervision, nous prenons une voie différente en intégrant des connaissances du domaine de la RI. Nous proposons une stratégie de marquage simple mais efficace qui met l'accent sur les term qui sont en commun entre la requête et le document, au niveau de l'entrée en introduisant stratégiquement des marqueurs spéciaux. Ensuite, nous explorons le processus de contextualisation dans les MLPs pour l'appariement semantic dans le contexte de la recherche ad~hoc. Puisque ce même processus de contextualisation est capable d'effectuer efficacement différentes tâches en aval, nous étudions s'il peut être contraint à un processus plus simple pour la tâche de recherche. Pour ce faire, nous proposons la distillation de MLPs dans des modules plus simples et soigneusement conçus, basés sur des embeddings statiques et des goulots d'étranglement d'information, afin d'analyser le rôle du processus de contextualisation pour la tâche de recherche.