Thèse soutenue

Enrichissement sémantique non supervisé de longs documents spécialisés pour la recherche d’information

FR  |  
EN
Auteur / Autrice : Oussama Ayoub
Direction : Nicolas Travers
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 22/12/2023
Etablissement(s) : Paris, HESAM
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur (Paris)
Partenaire(s) de recherche : Laboratoire : Centre d'études et de recherche en informatique et communications (Paris) - Centre d'études et de recherche en informatique et communications
établissement de préparation de la thèse : Conservatoire national des arts et métiers (France ; 1794-....)
Jury : Président / Présidente : Nedra Mellouli
Examinateurs / Examinatrices : Aomar Osmani, Haïfa Zargayouna, Christrophe Rodrigues
Rapporteurs / Rapporteuses : Nedra Mellouli, Salima Benbernou

Résumé

FR  |  
EN

Face à l'accroissement incessant des données textuelles à traiter, les systèmes de Recherche d'Information (RI) doivent faire face à l'adaptation des mécanismes existants pour une sélection pertinente des ensembles documentaires dédiés à un contexte spécifique. Une difficulté prépondérante réside dans la divergence terminologique entre les termes employés dans les requêtes et ceux présents dans les documents. Cette disparité sémantique, particulièrement prononcée pour les termes de sens proches dans les documents issus de domaines spécialisés de grande taille, pose un défi significatif en RI. Face à ces enjeux, de nombreuses études se sont limitées à l'enrichissement de requêtes via des modèles supervisés, une approche qui s'avère inadéquate pour une application industrielle et manque de flexibilité. Cette thèse propose une alternative novatrice avec un système de recherche non supervisé basé sur des méthodes d'Apprentissage Profond. La plateforme LoGE utilise un modèle de langage masqué pour extrapoler des termes associés, enrichissant ainsi la représentation textuelle des documents. Les modèles utilisés sont entraînés préalablement sur de vastes corpus textuels, intégrant des connaissances générales ou spécifiques à un domaine, optimisant ainsi la représentation des documents. L'analyse des extensions générées a révélé un déséquilibre entre le signal (termes pertinents ajoutés) et le bruit (termes non pertinents). Pour pallier ce problème, nous avons développé SummVD, une approche de résumé automatique extractif, utilisant la décomposition en valeurs singulières pour synthétiser l'information contenue dans les documents et identifier les phrases les plus pertinentes. Cette méthode a été adaptée pour filtrer les termes des extensions en fonction du contexte local de chaque document, afin de maintenir la pertinence de l'information tout en minimisant le bruit.