Thèse soutenue

FR
Auteur / Autrice : Benjamin Nguyen
Direction : Serge Abiteboul
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2003
Etablissement(s) : Paris 11

Mots clés

FR

Mots clés libres

Résumé

FR  |  
EN

Nos travaux se placent dans le cadre général de la conception d'un cadre approprié pour la découverte, l'analyse, le traitement, le stockage, l'intégration et l'interrogation d'informations trouvées sur le Web. Nous proposons dans un premier temps une étude de l'état de l'art concernant les travaux sur la recherche d'information sur le Web, la gestion de l'évolution temporelle dans un entrepôt de données, et la classification de documents. Nos travaux portent spécifiquement sur la construction et l'évolution d'un entrepôt de données du Web. Nous proposons d'une part une méthodologie de conception d'un tel entrepôt, et d'autre part nous analysons les fonctionnalités nécessaires au bon fonctionnement de ce système. Nous présentons les résultats de deux expériences dans ce domaine, auxquelles nous avons participé, Xylème et Thesus. Le projet Xylème concernait la gestion de pages XML du Web, depuis leur acquisition, jusqu'à leur interrogation, et nous nous intéressons plus particulièrement au monitorage de leur évolution temporelle. Le projet Thesus traite de la construction de collections thématiques de pages Web, en se basant sur l'analyse de la sémantique des pages au travers notamment de leurs liens. Ces deux projets ont été implantés, et notre module de monitorage est utilisé dans l'industrie par la société Xylème S. A. Ces deux expériences ont fourni un cadre de réflexion, qui s'est traduit par la réalisation du prototype SPIN, qui cristallise notre approche de la conception d'un entrepôt de données thématique.