Enrichissement sémantique non supervisé de longs documents spécialisés pour la recherche d’information

Oussama Ayoub

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Enrichissement sémantique non supervisé de longs documents spécialisés pour la recherche d’information

FR |

EN

Auteur / Autrice :	Oussama Ayoub
Direction :	Nicolas Travers
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 22/12/2023
Etablissement(s) :	Paris, HESAM
Ecole(s) doctorale(s) :	École doctorale Sciences des métiers de l'ingénieur (Paris)
Partenaire(s) de recherche :	Laboratoire : Centre d'études et de recherche en informatique et communications (Paris) - Centre d'études et de recherche en informatique et communications
	établissement de préparation de la thèse : Conservatoire national des arts et métiers (France ; 1794-....)
Jury :	Président / Présidente : Nedra Mellouli
	Examinateurs / Examinatrices : Aomar Osmani, Haïfa Zargayouna, Christrophe Rodrigues
	Rapporteur / Rapporteuse : Nedra Mellouli, Salima Benbernou

Mots clés

FR |

EN

Mots clés contrôlés

Recherche de l'information

Apprentissage profond

Mots clés libres

Recherche d’Information Ad-Hoc

Apprentissage Profond

Plongement de mot

Enrichissement de document

Filtrage

Non supervisé

Résumé

FR |

EN

Face à l'accroissement incessant des données textuelles à traiter, les systèmes de Recherche d'Information (RI) doivent faire face à l'adaptation des mécanismes existants pour une sélection pertinente des ensembles documentaires dédiés à un contexte spécifique. Une difficulté prépondérante réside dans la divergence terminologique entre les termes employés dans les requêtes et ceux présents dans les documents. Cette disparité sémantique, particulièrement prononcée pour les termes de sens proches dans les documents issus de domaines spécialisés de grande taille, pose un défi significatif en RI. Face à ces enjeux, de nombreuses études se sont limitées à l'enrichissement de requêtes via des modèles supervisés, une approche qui s'avère inadéquate pour une application industrielle et manque de flexibilité. Cette thèse propose une alternative novatrice avec un système de recherche non supervisé basé sur des méthodes d'Apprentissage Profond. La plateforme LoGE utilise un modèle de langage masqué pour extrapoler des termes associés, enrichissant ainsi la représentation textuelle des documents. Les modèles utilisés sont entraînés préalablement sur de vastes corpus textuels, intégrant des connaissances générales ou spécifiques à un domaine, optimisant ainsi la représentation des documents. L'analyse des extensions générées a révélé un déséquilibre entre le signal (termes pertinents ajoutés) et le bruit (termes non pertinents). Pour pallier ce problème, nous avons développé SummVD, une approche de résumé automatique extractif, utilisant la décomposition en valeurs singulières pour synthétiser l'information contenue dans les documents et identifier les phrases les plus pertinentes. Cette méthode a été adaptée pour filtrer les termes des extensions en fonction du contexte local de chaque document, afin de maintenir la pertinence de l'information tout en minimisant le bruit.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Enrichissement sémantique non supervisé de longs documents spécialisés pour la recherche d’information

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Enrichissement sémantique non supervisé de longs documents spécialisés pour la recherche d’information

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses