Extraction d'informations à partir du Web
Auteur / Autrice : | Benjamin Habegger |
Direction : | Mohamed Quafafou |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2004 |
Etablissement(s) : | Nantes |
Ecole(s) doctorale(s) : | École doctorale sciences et technologies de l'information et des matériaux (Nantes) |
Partenaire(s) de recherche : | autre partenaire : Université de Nantes. Faculté des sciences et des techniques |
Mots clés
Mots clés contrôlés
Résumé
Avec l'essor du Web, de nombreuses sources de données en ligne, telles que des annuaires en ligne, des sites immobiliers, des sites de commerce électronique, des moteurs de recherches, etc. Sont apparues. Cependant ces sources de données ont été conçues pour être parcourues et visualisées par des utilisateurs humains utilisant un navigateur. Bien que riche en contenu, les formats que prennent ces sources sont des formats de présentation et il est alors difficile pour une machine d'utiliser les informations directement. Pourtant, donner à des programmes informatiques un accès à de telles sources ouvre la porte à de nombreuses applications telles que la création d'agents intelligents accédant aux données du Web, à l'intégration de données du Web dans des systèmes de médiation de données, etc. Deux problèmes majeurs se posent pour permettre cet accès. Premièrement, il est nécessaire d'extraire les informations que contiennent les pages résultats d'une sources et de les mettre dans un format compréhensible par la machine. Deuxièmement, la machine doit savoir comment accéder à la source. En effet, on doit savoir où poster une requête, comment parcourir l'ensemble de pages résultats, etc. Pour résoudre le premier problème nous proposons d'utiliser une méthode dans laquelle l'utilisateur décrit les informations qu'il souhaite extraire en donnant quelques instances exemples de celles-ci. Les contextes d'occurrence de ces exemples sont alors recherchés dans les pages résultats de la source et généralisés afin d'extraire de nouvelles instances. Par rapport aux méthodes existantes dans la littérature celle que nous proposons permet d'extraire précisément les données souhaitées sans toutefois avoir à étiqueter manuellement des pages exemples entières. D'autre part, nous proposons une solution au second problème : permettre à la machine d'accéder à une source. Par l'étude de plusieurs sources, nous avons mis en avant un ensemble d'opérateurs récurrents dont le paramétrage et la combinaison permet l'accès aux sources. Nous proposons le langage WETDL afin de décrire les opérateurs et leurs combinaisons. Nous proposons aussi plusieurs algorithmes permettant "d'exécuter" ces descriptions et ainsi réaliser une tâche d'extraction.