Thèse soutenue

Recherche ciblée de documents sur le Web
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Amar-Djalil Mezaour
Direction : Marie-Christine Rousset
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Depuis sa création, le web a vu sa taille croître de manière phénoménale rendant la recherche d'informations difficile et fastidieuse. Cette difficulté est perceptible lorsqu'il s'agit de rechercher des documents complexes tels que des documents thématiques. Ceci se traduit par des réponses nombreuses et souvent imprécises. Il est, dans ce cas, nécessaire de recourir à un expert humain pour filtrer les réponses impertinentes. Cette imprécision s'explique par le principe même du fonctionnement des outils de recherche actuels de documents sur le web. En effet, les requêtes mots clés utilisés par la plupart des moteurs de recherche sont peu expressives pour caractériser les documents souhaités. Par ailleurs, les techniques utilisées par ces moteurs pour constituer leur index de documents, sur lequel les requêtes sont évaluées, parcourent le web dans le but de rapatrier tout type de documents. Je montre dans cette thèse que l'hétérogénéïté des index des moteurs de recherche et leur technique non ciblée pour alimenter ces index peut être source d'imprécision lors de l'évaluation des requêtes. Pour améliorer la précision de la recherche sur le web, je propose WeQueL, un langage de requêtes déclaratif et multicritères. Par ce langage, je montre qu'une façon d'augmenter la précision des requêtes mots clés consiste à les combiner sur différentes parties de la structure d'un document. Je propose également une approche sélective d'exploration du web guidée par une requête WeQueL. Cette approche repose sur une technique d'anticipation du score d'un document sans avoir encore rapatrié son contenu. Pour cela, un système d'apprentissage bayésien est mis en place.