Auteur / Autrice : | Zeynep Pehlivan |
Direction : | Anne Doucet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2013 |
Etablissement(s) : | Paris 6 |
Résumé
Le Web crée chaque jour une quantité importante de connaissances culturelles et intellectuelles. Ses informations sont de nature éphémère car elles sont constamment remplacées, parfois sans aucunenotification. C’est pour cette raison que l’archivage du web est devenue une nécessité culturelle afinde préserver la connaissance pour les prochaines générations. Son succès sera cependant mesuré parses modes d’accès, comme ceux fournis jusqu’ici par le web. Notre recherche situe dans le contexte del’accès aux archives web, et étudie les différents problèmes d’accès qui y sont liés. Ces problèmes sontgroupés en deux thèmes principaux : Méthodes d’accès et Optimisation des accès. Pour les méthodesd’accès, nous proposons la base d’un langage de requête ayant par objectif de de mieux satisfaire lesbesoins d’information des utilisateurs. Une nouvelle méthode de navigation est ensuite introduite, quiprend en compte la cohérence des pages. Pour l’optimisation de l’accès, nous proposons un algorithmede détection de changement pour comprendre et quantifier ce qui s’est passé (et a donc changé) entredeux versions d’une même page Web. Nous étudions aussi le comportement des différentes méthodesd’élagage d’index statiques avec des requêtes temporelles. En outre, nous proposons une nouvelle méthode d’élagage index statiques basée sur la diversification et nous montrons son application aux collections temporelles et un gain supstanciel de performance par rapport aux autres approaches.