Thèse soutenue

Syfweb : un système de filtrage d'informations sur le Web

FR
Auteur / Autrice : Tahar Amrane
Direction : Richard Bouché
Type : Thèse de doctorat
Discipline(s) : Informatique documentaire
Date : Soutenance en 2003
Etablissement(s) : Lyon 1

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Syfweb est un méta moteur de recherche ; il permet d'interroger les moteurs de recherche sur le Web et de récupérer, analyser et trier les résultats selon une formule de pertinence prenant en compte dans son calcul le contenu intégral des documents. Les documents sont partagés en zones classées par ordre d'importance et leur pertinence se trouve augmentée ou diminuée suivant la présence ou l'absence des termes de la requête dans ces documents. A chaque document est attribuée une matrice d'occurrences faisant apparaître les zones clés du document, avec pour chaque zone les occurrences des termes de la requête. Syfweb va au-delà de la recherche sur le Web : il permet, en outre, d'interroger en local les documents à contenu textuel ; ceci permet à son utilisateur d'effectuer des recherches dans un espace à deux dimensions (Internet, Intranet). Dans son traitement ; Syfweb se base sur :1. Le développeur de requête : à partir de la requête posée par l'utilisateur, Syfweb utilise une base terminologique (WordNet ou la Base terminologique du Québec BTQ) pour construire un ensemble de requêtes. L'utilisateur intervient de façon active tant au niveau de la terminologie que dans le choix des requêtes qui seront envoyées au système. 2. L'extracteur des documents : interroge les moteurs de recherches avec l'union des requêtes validées et récupère les documents-réponses, il élimine les doublons, les documents avec des liens vides et ceux ne respectant pas le profil de l'utilisateur (taille minimale des documents, type des documents, domaine des sites). 3. Le classificateur : classe les documents retenus après une analyse statistique de leur contenus. L'affichage de la valeur de pertinence dans Syfweb alerte l'utilisateur sur la mauvaise qualité de la réponse des moteurs et méta moteurs à la question posée. Pour continuer sa recherche, l'utilisateur doit : soit reformuler sa requête avec d'autres termes équivalents, soit interroger d'autres moteurs ou méta moteurs de recherche.