Indexation et interrogation de pages web décomposées en blocs visuels
Auteur / Autrice : | Nicolas Faessel |
Direction : | Jacques Le Maitre, Emmanuel Bruno |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 14/06/2011 |
Etablissement(s) : | Aix-Marseille 3 |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Jury : | Président / Présidente : Omar Boucelma |
Examinateurs / Examinatrices : Jacques Le Maitre, Emmanuel Bruno, Michel Scholl, Philippe Mulhem, Sylvie Calabretto |
Résumé
Cette thèse porte sur l'indexation et l'interrogation de pages Web. Dans ce cadre, nous proposons un nouveau modèle : BlockWeb, qui s'appuie sur une décomposition de pages Web en une hiérarchie de blocs visuels. Ce modèle prend en compte, l'importance visuelle de chaque bloc et la perméabilité des blocs au contenu de leurs blocs voisins dans la page. Les avantages de cette décomposition sont multiples en terme d'indexation et d'interrogation. Elle permet notamment d'effectuer une interrogation à une granularité plus fine que la page : les blocs les plus similaires à une requête peuvent être renvoyés à la place de la page complète. Une page est représentée sous forme d'un graphe acyclique orienté dont chaque nœud est associé à un bloc et étiqueté par l'importance de ce bloc et chaque arc est étiqueté la perméabilité du bloc cible au bloc source. Afin de construire ce graphe à partir de la représentation en arbre de blocs d'une page, nous proposons un nouveau langage : XIML (acronyme de XML Indexing Management Language), qui est un langage de règles à la façon de XSLT. Nous avons expérimenté notre modèle sur deux applications distinctes : la recherche du meilleur point d'entrée sur un corpus d'articles de journaux électroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006. Nous en présentons les résultats.