Auteur / Autrice : | François Toussenel |
Direction : | Laurence Danlos |
Type : | Thèse de doctorat |
Discipline(s) : | Linguistique théorique, descriptive et automatique |
Date : | Soutenance en 2005 |
Etablissement(s) : | Paris 7 |
Ecole(s) doctorale(s) : | École doctorale Sciences du langage (Paris1992-2019) |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Nous parcourons les limites de l'approche d'étiquetage en arbres élémentaires par modèle de Markov caché comme étape préparatoire à l'analyse syntaxique complète utilisant une large grammaire d'arbres adjoints lexicalisée extraite automatiquement d'un corpus arboré. Après avoir identifié deux sources majeures de difficulté pour cette approche (des problèmes statistiques dus à un fort manque de données, et un conflit entre la nature globale des informations véhiculées par les schémas d'arbre et la vision locale du modèle de Markov caché), nous avons exploré trois voies d'amélioration de la phase d'étiquetage. Les deux premières (généralisation des données d'apprentissage et sous-spécification) utilisent une décomposition des schémas d'arbre en traits. La troisième, qui s'attaque à la seconde source de difficulté, utilise la structure des schémas d'arbre correspondant aux supertags pour éliminer les séquences de supertags qui ne pourront donner d'analyse complète.