Auteur / Autrice : | Estelle Le Roux |
Direction : | Benoît Habert |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance en 2003 |
Etablissement(s) : | Paris 10 |
Mots clés
Mots clés contrôlés
Résumé
L'INA a besoin pour que ses archives audiovisuelles puissent être utilisées de bien connaître le contenu de ses documents. Les documentalistes doivent alors visionner ces documents et les indexer. Afin d'apporter une aide aux documentalistes, nous avons créé un système d'extraction d'information s'appliquant sur des articles de presse écrite. Nous partons de l'hypothèse q'un même événement est, à la fois, décrit dans la presse écrite et visible à la télévision. Nous avons alors conçu notre système en nous servant d'une ontologie du domaine pour créer un dictionnaire sémantique et des patrons syntaxico-sémantiques. Nous obtenons, en sortie, des index conceptuels qui pourront être utilisés par les documentalistes lors de l'indexation. Les résultats obtenus sont mitigés : la grande variabilité de la langue dans les articles entra^inent la création d'un nombre important de patrons mais la presse écrite permet d'extraire des informations pertinentes pour l'INA.