Les points de vue : vers une caractéristation de la notion de besoins utilisateurs pour la collecte d'informations sur le Web, conception et réalisation du méta-moteur de recherche RAP
Auteur / Autrice : | Leïla Naït-Baha |
Direction : | Jean-Pierre Desclès |
Type : | Thèse de doctorat |
Discipline(s) : | Linguistique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Paris 4 |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse s'inscrit dans le cadre de la recherche d'informations sur le Web à l'aide de méthodes inspirées des recherches en informatique linguistique du laboratoire LaLICC. Notre travail avait pour but de développer un outil qui permet d'assister de manière interactive, lors d'une session de recherche, un utilisateur souhaitant collecter des informations disponibles sur le Web sur une notion ou un sujet donné. L'idée fondamentale mise en œuvre dans l'outil réalisé, appelé RAP, a consisté à orienter la recherche selon un ou plusieurs points de vue prédéfinis qui permettent de satisfaire d'une manière graduelle les besoins informationnels de l'utilisateur. Conceptuellement, une partie importante de notre travail a consisté à étudier la manière de caractériser la notion de besoin d'un utilisateur qui constitue le fondement intuitif sur lequel repose la notion de points de vue. Pour cela, les connaissances linguistiques sur lesquelles nous nous sommes appuyée nous ont permis de ne plus voir la notion de besoin comme étant nécessairement liée à une communauté d'utilisateurs particulière. Nos réflexions nous ont alors amené à poser les notions de besoin informationnel élémentaire ou complexe comme cadre théorique de notre recherche. A ces besoins correspondent les points de vue que l'utilisateur peut sélectionner pour orienter la recherche d'informations. Techniquement, orienter la recherche selon un point de vue revient à reformuler la requête utilisateur en y intégrant les marqueurs linguistiques relatifs au point de vue choisi, par exemple celui de la Causalité ou celui de la Citation. La reformulation a alors pour but d'une part, de réduire de façon notable le bruit, et d'autre part, de cibler des pages Web possédant un contenu sémantique riche. La réalisation des points de vue par cette technique de reformulation implique l'utilisation de marqueurs linguistiques issus des travaux de l'équipe LaLICC sur le filtrage sémantique des textes. Chaque classe de marqueurs relative au point de vue choisi intervient dans le processus de reformulation des requêtes de l'utilisateur à travers la technique de reformulation que nous avons développée, ensuite dans l'extraction des parties, paragraphes ou segments textuels du document où la manifestation textuelle de ce point de vue est détectée, aidant ainsi l'utilisateur à mieux sélectionner les pages Web intéressantes parmi les pages résultats du moteur de recherche consulté. L'ensemble de la démarche a été concrétisé par la construction de l'outil RAP écrit en Java et comprenant une Interface Homme-Machine conviviale, dans lequel 27 points de vue ont été implémentés découlant des différentes approches de six points de vue principaux: Causalité, Relations descriptives, Citation, Thème/Position, Problème/Solution, Acteurs.