Thèse soutenue

Extraction de données à partir de pages Web pour la mesure du comportement des internautes

FR  |  
EN
Auteur / Autrice : Nikolay Georgiev
Direction : Jean-Marc LabatJean-Luc Minel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Paris 5

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Si l’information disponible sur Internet augmente de manière exponentielle, elle reste aujourd’hui largement inexploitable par les moyens informatiques en raison de sa nature textuelle. La problématique « Comment accéder à l’information disponible sous forme de pages HTML/XHTML ? » garde donc toute sa pertinence. Dans ce travail nous nous intéressons au problème de l’identification des pages web et de l’extraction de données pertinentes, dans le but d’évaluer finement le comportement des internautes à partir de panels de centaines de milliers de personnes, ce qui représente des dizaines de millions de pages visitées à analyser. La nouveauté apportée par notre approche réside dans la méthodologie d’extraction qui est basée sur la reconnaissance progressive de sous-structures nommées « structures locales » et sur le concept de « couple d’information ». Notre recherche a pu être validée par le développement d’un outil robuste, fiable et facile d’utilisation.