Extraction de données à partir de pages Web pour la mesure du comportement des internautes

Nikolay Georgiev

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Nikolay Georgiev
Direction :	Jean-Marc Labat, Jean-Luc Minel
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance en 2006
Etablissement(s) :	Paris 5

Mots clés

FR

Mots clés contrôlés

Internautes

Design patterns

HTML (langage de balisage)

Exploration de données

Résumé

FR |

EN

Si l’information disponible sur Internet augmente de manière exponentielle, elle reste aujourd’hui largement inexploitable par les moyens informatiques en raison de sa nature textuelle. La problématique « Comment accéder à l’information disponible sous forme de pages HTML/XHTML ? » garde donc toute sa pertinence. Dans ce travail nous nous intéressons au problème de l’identification des pages web et de l’extraction de données pertinentes, dans le but d’évaluer finement le comportement des internautes à partir de panels de centaines de milliers de personnes, ce qui représente des dizaines de millions de pages visitées à analyser. La nouveauté apportée par notre approche réside dans la méthodologie d’extraction qui est basée sur la reconnaissance progressive de sous-structures nommées « structures locales » et sur le concept de « couple d’information ». Notre recherche a pu être validée par le développement d’un outil robuste, fiable et facile d’utilisation.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extraction de données à partir de pages Web pour la mesure du comportement des internautes

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extraction de données à partir de pages Web pour la mesure du comportement des internautes

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses