Thèse soutenue

Utilisation de la méthode d'exploration contextuelle pour une extraction d'informations sur le web dédiées à la veille : réalisation du système informatique JavaVeille

FR  |  
EN
Auteur / Autrice : Asma Bouhafs
Direction : Jean-Pierre Desclès
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Paris 4

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Afin de proposer à l'utilisateur un système d'extraction d'informations pour un objectif d'aide à la veille, nous avons développé une méthode basée sur des notions générales, telles que la <CoLocation>, la <Confrontation>, la <Négociation>, la <Coopération>. Les connaissances linguistiques, associées à ces notions, permettent la mise en valeur d'extraits textuels introduisant des informations de veille qui tentent de décrire une relation entre des actants : "qui a rencontré qui ? ", "Les acteurs d'une transaction ou d'une négociation ou d'une coopération ou encore d'un conflit? ". La méthode, mise au point à partir d'un corpus de références d'articles de journaux traitant des sujets politiques, sociaux et économiques, permet dans un premier temps d'identifier les entités nommées (personnes, compagnies, organisations, localisations, dates, etc. ) en utilisant une approche qui repose à la fois sur la structure interne des entités nommées, de dictionnaires, et l'étude du contexte. Dans un deuxième temps, l'annotation des relations et des notions évoquées dans les documents s'appuie sur l'exploration contextuelle. L'étude du corpus nous a amené à identifier dix notions. Cette méthode est utilisable sur différents domaines, et adaptée pour l'analyse de documents traitant de sujets nouveaux. Notre démarche a abouti à la réalisation du système JavaVeille développé avec le langage Java, qui s'appuie sur plus de 750 indicateurs linguistiques et 85 règles d'exploration contextuelle. JavaVeille permet de faciliter l'extraction des relations et des notions recherchées en utilisant la technologie XML. Il propose aussi un graphe représentatif des extraits repérés lors de l'analyse du document. L'utilisateur du système JavaVeille est le veilleur, qui peut consulter le contenu informatif d'une base sans avoir à formuler de requête.