Extraction automatique d'une grammaire d'arbres adjoints à partir d'un corpus arboré pour le coréen
Auteur / Autrice : | Jungyeul Park |
Direction : | Anne Abeillé |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance en 2006 |
Etablissement(s) : | Paris 7 |
Mots clés
Mots clés contrôlés
Résumé
La grammaire électronique est une des ressources les plus importantes pour le traitement automatique des langues naturelles. Parce que le développement manuel d'une grammaire est une tâche coûteuse, beaucoup d'efforts pour le développement automatique de grammaires ont été fournis pendant la décennie dernière. Le développement automatique d'une grammaire signifie qu'un système extrait une grammaire à partir d'un corpus arboré. A partir du corpus arboré Sejong Korean Treebank, nous réalisons un système qui extrait une grammaire d'arbres adjoints lexicalisée et avec traits. Les étiquettes syntaxiques et morphologiques du corpus nous permettent d'extraire les traits syntaxiques automatiquement. Pendant les expériences d'extraction, nous modifions le corpus pour améliorer les grammaires extraites et extrayons cinq types de grammaires, donc quatre grammaires lexicalisées et une grammaire lexicalisée avec traits. Les grammaires extraites sont évaluées par la taille, la couverture et l'ambiguïté moyenne. La croissance du nombre de schémas d'arbres n'est pas stabilisée à l'issue de l'extraction, ce qui semble indiquer que la taille du corpus n'es pas suffisante pour atteindre la convergence des grammaires. Cependant le nombre de schémas apparaissant au moins deux fois dans le corpus est quasiment stabilisé à l'issue de l'extraction et le nombre de schémas des grammaires supérieures (celles qui sont extraites après la modification du corpus) est aussi plus stabilisé que les grammaires inférieurs. Nous évaluons notre programme d'extraction en l'appliquant à un autre corpus arboré. Enfin, nous comparons nos grammaires avec celle de Han et al. (2001) écrite à la main.