Thèse soutenue

Étiquetage probabiliste avec un grand jeu d'étiquettes en vue de l'analyse syntaxique complète
FR  |  
EN
Accès à la thèse
Auteur / Autrice : François Toussenel
Direction : Laurence Danlos
Type : Thèse de doctorat
Discipline(s) : Linguistique théorique, descriptive et automatique
Date : Soutenance en 2005
Etablissement(s) : Paris 7
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris1992-2019)

Résumé

FR  |  
EN

Nous parcourons les limites de l'approche d'étiquetage en arbres élémentaires par modèle de Markov caché comme étape préparatoire à l'analyse syntaxique complète utilisant une large grammaire d'arbres adjoints lexicalisée extraite automatiquement d'un corpus arboré. Après avoir identifié deux sources majeures de difficulté pour cette approche (des problèmes statistiques dus à un fort manque de données, et un conflit entre la nature globale des informations véhiculées par les schémas d'arbre et la vision locale du modèle de Markov caché), nous avons exploré trois voies d'amélioration de la phase d'étiquetage. Les deux premières (généralisation des données d'apprentissage et sous-spécification) utilisent une décomposition des schémas d'arbre en traits. La troisième, qui s'attaque à la seconde source de difficulté, utilise la structure des schémas d'arbre correspondant aux supertags pour éliminer les séquences de supertags qui ne pourront donner d'analyse complète.