Thèse soutenue

Extraction d'information dans des textes libres guidée par une ontologie : faciliter l'indexation du rendu audiovisuel d'un événement par l'indexation conceptuelle de textes relatant cet événement

FR  |  
EN
Auteur / Autrice : Estelle Le Roux
Direction : Benoît Habert
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance en 2003
Etablissement(s) : Paris 10

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

L'INA a besoin pour que ses archives audiovisuelles puissent être utilisées de bien connaître le contenu de ses documents. Les documentalistes doivent alors visionner ces documents et les indexer. Afin d'apporter une aide aux documentalistes, nous avons créé un système d'extraction d'information s'appliquant sur des articles de presse écrite. Nous partons de l'hypothèse q'un même événement est, à la fois, décrit dans la presse écrite et visible à la télévision. Nous avons alors conçu notre système en nous servant d'une ontologie du domaine pour créer un dictionnaire sémantique et des patrons syntaxico-sémantiques. Nous obtenons, en sortie, des index conceptuels qui pourront être utilisés par les documentalistes lors de l'indexation. Les résultats obtenus sont mitigés : la grande variabilité de la langue dans les articles entra^inent la création d'un nombre important de patrons mais la presse écrite permet d'extraire des informations pertinentes pour l'INA.