Thèse soutenue

Excom‑2 : plateforme d’annotation automatique de catégories sémantiques : conception, modélisation et réalisation informatique : applications à la catégorisation des citations en arabe et en français

FR  |  
EN
Auteur / Autrice : Al Moatasem Alrahabi
Direction : Jean-Pierre Desclès
Type : Thèse de doctorat
Discipline(s) : Informatique linguistique
Date : Soutenance le 29/01/2010
Etablissement(s) : Paris 4
Ecole(s) doctorale(s) : École doctorale Concepts et langages (Paris ; 2000-....)
Partenaire(s) de recherche : Equipe de recherche : Langues, logiques, informatique, cognition (Paris)
Jury : Président / Présidente : Christian Fluhr
Examinateurs / Examinatrices : Christian Boitet, Jean-Guy Meunier, Brahim Djioua
Rapporteur / Rapporteuse : Sabine Bergler, Owen Rambow

Résumé

FR  |  
EN

Nous proposons une plateforme d’annotation sémantique, appelée « EXCOM-2 ». Basée sur la méthode de l’ « Exploration Contextuelle », elle permet, à travers une diversité de langues, de procéder à des annotations automatiques de segments textuels par l'analyse des formes de surface dans leur contexte. Les textes sont traités selon des « points de vue » discursifs dont les valeurs sont organisées dans une « carte sémantique ». L’annotation se base sur un ensemble de règles linguistiques, écrites par un analyste, qui permettent d’identifier les représentations textuelles sous-jacentes aux différentes catégories de la carte. Le système offre, à travers deux types d’interfaces (développeur ou utilisateur), une chaîne de traitements automatiques de textes qui comprend la segmentation, l’annotation et d’autres fonctionnalités de post-traitement. Les documents annotés peuvent être utilisés, par exemple, pour des systèmes de recherche d’information, de veille, de classification ou de résumé automatique. Comme exemple d'application, nous proposons un système d'identification et de catégorisation automatiques du discours rapporté en arabe et en français.