Thèse soutenue

Étude et réalisation d'un méta-indexeur pour la recherche sur le web de documents produits par l'administration française

FR
Auteur / Autrice : Katarzyna M. Węgrzyn-Wolska
Direction : Robert Mahl
Type : Thèse de doctorat
Discipline(s) : Informatique temps réel, robotique et automatique
Date : Soutenance en 2001
Etablissement(s) : Paris, ENMP

Mots clés

FR

Résumé

FR

Avec la croissance de la taille du web, chercher une information spécifique devient de plus en plus difficile. Il est nécessaire de proposer des outils spécialisés afin de faciliter cette recherche. Notre objectif est de construire un système de recherche des documents de l'administration française. Nous analysons les problèmes liés à la recherche des informations sur le web et en particulier la technique de méta-recherche. Puis nous décrivons la réalisation d'un outil ayant pour but de retrouver les documents administratifs grâce à cette technique. L'objectif est de trouver des documents à partir d'une même question posée simultanément à plusieurs moteurs de recherche de différents serveurs de l'administration, ainsi qu'a des moteurs de recherche généraux. Nous présentons d'abord une étude bibliographique, les critères de recherche et le choix de la méthode. Nous étudions ensuite l'implémentation du méta-moteur réalisée dans le cadre de notre recherche. Des expériences ont été réalisées sur l'évaluation de la pertinence des réponses reçues de la part des moteurs de recherche. L'analyse, étant effectuée on-line, est assez rapide. En raison de l'hétérogénéité des bases de données, des différentes méthodes d'indexation des documents, ainsi que des différents algorithmes d'analyse de la pertinence, l'évaluation et la synthèse de l'ensemble des réponses fournies par les moteurs pose des problèmes particuliers pour la vérification et la classification des documents-réponses. Un certain nombre de solutions à ces problèmes sont fournies dans le cadre de cette thèse, qui en outre s'est intéressée à la classification des moteurs par des voies statistiques.