Thèse soutenue

Extraction d'informations à partir du Web

FR
Auteur / Autrice : Benjamin Habegger
Direction : Mohamed Quafafou
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2004
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale sciences et technologies de l'information et des matériaux (Nantes)
Partenaire(s) de recherche : autre partenaire : Université de Nantes. Faculté des sciences et des techniques

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Avec l'essor du Web, de nombreuses sources de données en ligne, telles que des annuaires en ligne, des sites immobiliers, des sites de commerce électronique, des moteurs de recherches, etc. Sont apparues. Cependant ces sources de données ont été conçues pour être parcourues et visualisées par des utilisateurs humains utilisant un navigateur. Bien que riche en contenu, les formats que prennent ces sources sont des formats de présentation et il est alors difficile pour une machine d'utiliser les informations directement. Pourtant, donner à des programmes informatiques un accès à de telles sources ouvre la porte à de nombreuses applications telles que la création d'agents intelligents accédant aux données du Web, à l'intégration de données du Web dans des systèmes de médiation de données, etc. Deux problèmes majeurs se posent pour permettre cet accès. Premièrement, il est nécessaire d'extraire les informations que contiennent les pages résultats d'une sources et de les mettre dans un format compréhensible par la machine. Deuxièmement, la machine doit savoir comment accéder à la source. En effet, on doit savoir où poster une requête, comment parcourir l'ensemble de pages résultats, etc. Pour résoudre le premier problème nous proposons d'utiliser une méthode dans laquelle l'utilisateur décrit les informations qu'il souhaite extraire en donnant quelques instances exemples de celles-ci. Les contextes d'occurrence de ces exemples sont alors recherchés dans les pages résultats de la source et généralisés afin d'extraire de nouvelles instances. Par rapport aux méthodes existantes dans la littérature celle que nous proposons permet d'extraire précisément les données souhaitées sans toutefois avoir à étiqueter manuellement des pages exemples entières. D'autre part, nous proposons une solution au second problème : permettre à la machine d'accéder à une source. Par l'étude de plusieurs sources, nous avons mis en avant un ensemble d'opérateurs récurrents dont le paramétrage et la combinaison permet l'accès aux sources. Nous proposons le langage WETDL afin de décrire les opérateurs et leurs combinaisons. Nous proposons aussi plusieurs algorithmes permettant "d'exécuter" ces descriptions et ainsi réaliser une tâche d'extraction.