Thèse soutenue

FR  |  
EN
Accès à la thèse
Auteur / Autrice : Yiping Li
Direction : Christian Fluhr
Type : Thèse de doctorat
Discipline(s) : Information scientifique et technique
Date : Soutenance en 2006
Etablissement(s) : Université de Marne-la-Vallée (1991-2019)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

L’analyse linguistique est une étape fondamentale et essentielle pour le traitement automatique des langues. En effet, elle permet d’étiqueter les mots avec des catégories morphosyntaxiques et d’identifier des entités nommées pour pouvoir réaliser des applications du plus haut niveau, par exemple la recherche d’information, la traduction automatique, la question réponse, etc. L’analyse linguistique du chinois remplit les mêmes missions que celle des autres langues. Mais elle présente une difficulté supplémentaire liée au fait de ne pas avoir de délimiteurs entre les mots. Puisque le mot est l’unité essentielle d’une langue, une segmentation des phrases en mots est indispensable pour le traitement du chinois. Parmi des études existantes, la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées sont souvent enchaînés comme les étapes différentes. La segmentation se sert de la base pour les deux autres. Ce type d’approches subit malheureusement un blocage au niveau de la segmentation : c’est-à-dire que certaines erreurs de segmentation sont inévitables. C’est pourquoi des modèles statistiques qui réalisent la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées ou la segmentation et l’un des deux autres traitements simultanément, ont été créés. Cette combinaison permet d’utiliser des informations supplémentaires apportées par l’étiquettes morphosyntaxiques et l’identification des entités nommées afin d’aider la segmentation. Cependant un modèle unique n’est pas modulaire. Donc il est difficile d’adapter le même modèle aux autres langues, à cause des caractéristiques particulières de chaque langue. Par conséquent, cette approche n’est pas approprie pour créer des systèmes d’analyse automatique multilingue. L’objectif de mon étude consiste à intégrer l’analyse automatique du chinois dans un système d’analyse multilingue LIMA. Par rapport à un système de traitement d’information monolingue du chinois, certaines contraintes sont imposées. D’abord, des traitements pour le chinois doivent être compatibles avec ceux d’autres langues. Ensuite, pour garder la cohérence et l’unité du système, il est favorable d’employer au maximum des modules de traitement en commun pour toutes les langues traitées par le système. En conséquence, le choix s’est porté sur l’utilisation des modules séparés pour la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées. Le fait de concevoir des traitements modulaires rend des modules de traitements spécifiques au chinois réutilisables pour d’autres langues ayant des traits linguistiques similaire et il facilite également des réactions entre les traitements. Néanmoins, ce type de méthodes enchaînant des trois traitements ne prend pas en compte des dépendances entre eux. Pour surmonter ce défaut, nous utilisons les informations fournies par l’analyse morphosyntaxique, par l’identification des entités nommées et par des connaissances linguistiques afin d’améliorer la segmentation. Une analyse des origines d’erreurs produites par des traitements enchaînés nous a inspiré une étude de l’interdépendance entre les trois traitements. Etant donné ces interdépendances, trois traitements spécifiques sont rajoutés au système : un prétraitement avant la segmentation basée sur le modèle de cooccurrence, une tokenization de termes liés aux chiffres écrits en caractères chinois et un traitement complémentaire pour la segmentation en identifiant certaines entités nommées entre l’étape de la segmentation et celle de l’étiquetage morphosyntaxique. Ces traitements rajoutés apportent des améliorations importantes à notre système