Unsupervised word segmentation and wordhoob assessment : the case for mandarin chinese

Pierre Magistry

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Segmentation en mots non-supervisée et estimation de la lexicalité : le cas du mandarin

FR |

EN

Auteur / Autrice :	Pierre Magistry
Direction :	Sylvain Kahane, Benoît Sagot
Type :	Thèse de doctorat
Discipline(s) :	Linguistique [Théorique, Descriptive et Automatique]
Date :	Soutenance en 2013
Etablissement(s) :	Paris 7
Jury :	Examinateurs / Examinatrices : Yves Lepage

Mots clés

FR

Mots clés contrôlés

Chinois (langue)

Apprentissage supervisé (intelligence artificielle)

Information, Théorie de l'

Segmentation (linguistique)

Linguistique -- Informatique

Traitement automatique du langage naturel

Sémantique

Langages de programmation -- Syntaxe

Langages de programmation -- Sémantique

Résumé

FR |

EN

Ce mémoire traite de la segmentation non-supervisée en mots et de l'évaluation de la «lexicalité» des formes. Le chinois moderne standard (mandarin) est choisi pour les expériences et évaluations. La première partie porte sur les aspects linguistiques. Elle présente les critères couramment utilisés pour définir le «mot» en linguistique chinoise et en montre les limites au travers d'une discussion de linguistique générale, abordant notammen la question des «expressions multi-mots». Nous présentons ensuite l'historique du développement de la Segmentation en Mot du Chinois comme une tâche typique en TAL, et défendons l'idée qu'une part d'arbitraire dans l'annotation des corpus d'évaluation favorise artificiellement les systèmes d'apprentissage supervisés alors que nous considérons les systèmes non-supervisés d'un plus grand intérêt pour la linguistique. La première partie nous amène à fonder notre définition de la lexicalité sur deux critères: une forte autonomie de combinaison et un haut degré d'appartenance à une classe distributionnelle. La seconde partie Présente une méthode non-supervisée pour évaluer l'autonomie des formes inspirée par les hypothèses de Harris. Avec un algorithme de segmentation simple et rapide basé uniquement sur cette mesure, nous obtenons des résultats proches de l'état de l'art. Nous discutons ensuite de l'importance des pré-traitements et présentons des expériences utilisant la MDL. Enfin, nous proposons une méthode et des outils pour une évaluation plus qualitative des analyses fournies par notre systèmes. Nous présentons aussi quelques résultats préliminaires sur d'autres langues.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Segmentation en mots non-supervisée et estimation de la lexicalité : le cas du mandarin

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Segmentation en mots non-supervisée et estimation de la lexicalité : le cas du mandarin

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses