Excom‑2 : plateforme d’annotation automatique de catégories sémantiques : conception, modélisation et réalisation informatique : applications à la catégorisation des citations en arabe et en français
Auteur / Autrice : | Al Moatasem Alrahabi |
Direction : | Jean-Pierre Desclès |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique linguistique |
Date : | Soutenance le 29/01/2010 |
Etablissement(s) : | Paris 4 |
Ecole(s) doctorale(s) : | École doctorale Concepts et langages (Paris ; 2000-....) |
Partenaire(s) de recherche : | Equipe de recherche : Langues, logiques, informatique, cognition (Paris) |
Jury : | Président / Présidente : Christian Fluhr |
Examinateurs / Examinatrices : Christian Boitet, Jean-Guy Meunier, Brahim Djioua | |
Rapporteur / Rapporteuse : Sabine Bergler, Owen Rambow |
Mots clés
Résumé
Nous proposons une plateforme d’annotation sémantique, appelée « EXCOM-2 ». Basée sur la méthode de l’ « Exploration Contextuelle », elle permet, à travers une diversité de langues, de procéder à des annotations automatiques de segments textuels par l'analyse des formes de surface dans leur contexte. Les textes sont traités selon des « points de vue » discursifs dont les valeurs sont organisées dans une « carte sémantique ». L’annotation se base sur un ensemble de règles linguistiques, écrites par un analyste, qui permettent d’identifier les représentations textuelles sous-jacentes aux différentes catégories de la carte. Le système offre, à travers deux types d’interfaces (développeur ou utilisateur), une chaîne de traitements automatiques de textes qui comprend la segmentation, l’annotation et d’autres fonctionnalités de post-traitement. Les documents annotés peuvent être utilisés, par exemple, pour des systèmes de recherche d’information, de veille, de classification ou de résumé automatique. Comme exemple d'application, nous proposons un système d'identification et de catégorisation automatiques du discours rapporté en arabe et en français.