Thèse soutenue

FR
Accès à la thèse
Auteur / Autrice : André Bittar
Direction : Laurence DanlosPascal AmsiliPascal Denis
Type : Thèse de doctorat
Discipline(s) : Linguistique théorique, descriptive et automatique
Date : Soutenance en 2010
Etablissement(s) : Paris 7

Mots clés

FR

Mots clés libres

Résumé

FR  |  
EN

Cette thèse présente le développement de ressources pour le traitement des informations temporelles de textes en français et en particulier la construction d'un corpus de référence, le French TimeBank, annoté selon la norme ISO-TimeML Les expressions temporelles, les événements ainsi que les relations temporelles qui existent entre ces entités y sont marqués. Pour la mise en œuvre de ce projet d'annotation, nous avons aussi développé un guide d'annotation ISO-TimeML pour le français et un système d'annotation automatique à base de règles. La création de ce guide a donné lieu à des améliorations du langage ISO-TimeML. D'une part, nous proposons des extensions du schéma d'annotation afin de permettre le traitement de phénomènes linguistiques en français, tels que les temps verbaux, l'aspect grammatical et les verbes modaux. D'autre part, nous proposons un ensemble d'améliorations pouvant également s'appliquer à d'autres langues. Le système d'annotation automatique a quant à lui servi à effectuer un traitement préalable des textes avant de procéder à une correction par des annotateurs humains. Une analyse quantitative et qualitative du French TimeBank nous a permis d'évaluer la méthodologie suivie pour sa création ainsi que de donner un aperçu du matériel linguistique employé pour l'expression de la temporalité en français. Cette analyse comprend une comparaison avec le corpus TimeBank 1. 2 pour l'anglais. Nous relevons aussi un certain nombre de points pouvant aider à améliorer les outils d'annotations.