Thèse soutenue

Filtrage d'information pour la construction de résumés multi-documents guidée par le profil utilisateur : le système REDUIT

FR  |  
EN
Auteur / Autrice : Sana-Leila Chaar Nouira
Direction : Daniel Laurent
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2004
Etablissement(s) : Marne-la-Vallée

Mots clés

FR

Résumé

FR  |  
EN

Dans ce travail, nous allons présenter une méthode qui vise à donner à un utilisateur la possibilité de parcourir rapidement un ensemble de documents selon un point de vue particulier. Plus précisément, nous avons développé une méthode qui prend en compte l’hétérogénéité thématique des centres d’intérêts pouvant être définis par un utilisateur pour produire un résumé multi-document spécifique de ses besoins. Les centres d’intérêt de l’utilisateur sont représentés par le biais d’un profil. La structuration des profils que nous avons définie est de nature thématique : un profil est un ensemble de termes structuré en sous-ensembles thématiquement homogènes. Chacun de ces sousensembles représente un sous-thème du profil. Le résumé des documents se fonde pour sa part sur l’extraction des passages les plus étroitement en relation avec ce profil. La première étape de cette extraction est un filtrage permettant de sélectionner les documents en relation avec le profil de l’utilisateur. Puis une analyse permet de délimiter au sein de chaque document les blocs de texte thématiquement homogènes, c’est-à-dire les unités de base du processus d’extraction. Cette analyse est suivie d’une étape d’appariement entre les unités délimitées et les sous-thèmes du profil considéré. Lorsque cet appariement laisse apparaître une compatibilité globale entre le profil et le document, une analyse supplémentaire est menée afin d’élargir le vocabulaire définissant chaque sous-thème du profil en y intégrant les termes du document liés à ce sous-thème mais ne figurant pas dans le profil. Cette capacité ouvre la voie à une plus grande finesse du filtrage en permettant la sélection de passages de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d’apporter des informations nouvelles et donc intéressantes, ce qui présente un intérêt particulier pour des applications de veille technologique par exemple. Enfin, une méthode de fusion permet de combiner les passages sélectionnés afin de construire un texte regroupant les informations les plus pertinentes pour l’utilisateur. L’intérêt de notre approche a été illustré au travers du système REDUIT qui a fait l’objet d’une évaluation montrant que la prise en compte explicite de l’hétérogénéité thématique des profils permet d’améliorer les résultats des processus intervenant aux différents niveaux de construction d’un résumé multi-document