Auteur / Autrice : | Benjamin Nguyen |
Direction : | Serge Abiteboul |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Paris 11 |
Mots clés
Mots clés libres
Résumé
Nos travaux se placent dans le cadre général de la conception d'un cadre approprié pour la découverte, l'analyse, le traitement, le stockage, l'intégration et l'interrogation d'informations trouvées sur le Web. Nous proposons dans un premier temps une étude de l'état de l'art concernant les travaux sur la recherche d'information sur le Web, la gestion de l'évolution temporelle dans un entrepôt de données, et la classification de documents. Nos travaux portent spécifiquement sur la construction et l'évolution d'un entrepôt de données du Web. Nous proposons d'une part une méthodologie de conception d'un tel entrepôt, et d'autre part nous analysons les fonctionnalités nécessaires au bon fonctionnement de ce système. Nous présentons les résultats de deux expériences dans ce domaine, auxquelles nous avons participé, Xylème et Thesus. Le projet Xylème concernait la gestion de pages XML du Web, depuis leur acquisition, jusqu'à leur interrogation, et nous nous intéressons plus particulièrement au monitorage de leur évolution temporelle. Le projet Thesus traite de la construction de collections thématiques de pages Web, en se basant sur l'analyse de la sémantique des pages au travers notamment de leurs liens. Ces deux projets ont été implantés, et notre module de monitorage est utilisé dans l'industrie par la société Xylème S. A. Ces deux expériences ont fourni un cadre de réflexion, qui s'est traduit par la réalisation du prototype SPIN, qui cristallise notre approche de la conception d'un entrepôt de données thématique.