Extraction de données à partir de pages Web pour la mesure du comportement des internautes
Auteur / Autrice : | Nikolay Georgiev |
Direction : | Jean-Marc Labat, Jean-Luc Minel |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2006 |
Etablissement(s) : | Paris 5 |
Mots clés
Mots clés contrôlés
Résumé
Si l’information disponible sur Internet augmente de manière exponentielle, elle reste aujourd’hui largement inexploitable par les moyens informatiques en raison de sa nature textuelle. La problématique « Comment accéder à l’information disponible sous forme de pages HTML/XHTML ? » garde donc toute sa pertinence. Dans ce travail nous nous intéressons au problème de l’identification des pages web et de l’extraction de données pertinentes, dans le but d’évaluer finement le comportement des internautes à partir de panels de centaines de milliers de personnes, ce qui représente des dizaines de millions de pages visitées à analyser. La nouveauté apportée par notre approche réside dans la méthodologie d’extraction qui est basée sur la reconnaissance progressive de sous-structures nommées « structures locales » et sur le concept de « couple d’information ». Notre recherche a pu être validée par le développement d’un outil robuste, fiable et facile d’utilisation.