Traduction automatique des noms propres de l’anglais et du français vers le vietnamien : analyse des erreurs et quelques solutions
Auteur / Autrice : | Thao Phan Thi Thanh |
Direction : | Sylviane Cardey-Greenfield, Lê An Hà, Izabella Thomas |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance le 11/03/2014 |
Etablissement(s) : | Besançon |
Ecole(s) doctorale(s) : | Ecole doctorale Langages, Espaces, Temps, Sociétés (Besançon ; 1991-2016) |
Partenaire(s) de recherche : | Laboratoire : Centre de recherche en linguistique et traitement automatique des langues, Lucien Tesnière (Besançon) - http://indexation.univ-fcomte.fr/nuxeo/site/esupversions/81d05334-21f9-44e1-9638-20e7a88a6223 |
Jury : | Président / Présidente : Denis Maurel |
Examinateurs / Examinatrices : Sylviane Cardey-Greenfield, Lê An Hà, Izabella Thomas, Denis Maurel, Ruslan Mitkov | |
Rapporteurs / Rapporteuses : Denis Maurel, Ruslan Mitkov |
Mots clés
Résumé
Dans l'ère de l'information et de la connaissance, la traduction automatique (TA) devientprogressivement un outil indispensable pour transposer la signification d'un texte d'une langue source versune langue cible. La TA des noms propres (NP), en particulier, joue un rôle crucial dans ce processus,puisqu'elle permet une identification précise des personnes, des lieux, des organisations et des artefacts àtravers les langues. Malgré un grand nombre d'études et des résultats significatifs concernant lareconnaissance d'entités nommées (dont le nom propre fait partie) dans la communauté de TAL dans lemonde, il n'existe presque aucune recherche sur la traduction automatique des noms propres (TANP) pourle vietnamien. En raison des caractéristiques différentes d'écriture de NP, la translittération ou la transcription etla traduction de plusieurs de langues incluant l'anglais, le français, le russe, le chinois, etc. vers levietnamien, le TANP de ces langues vers le vietnamien est stimulant et problématique. Cette étude seconcentre sur les problèmes de TANP d’anglais vers le vietnamien et de français vers le vietnamienrésultant du moteurs courants de la TA et présente les solutions de prétraitement de ces problèmes pouraméliorer la qualité de la TA. A travers l'analyse et la classification d'erreurs de la TANP faites sur deux corpus parallèles detextes avec PN (anglais-vietnamien et français-vietnamien), nous proposons les solutions concernant deuxproblématiques importantes: (1) l'annotation de corpus, afin de préparer des bases de données pour leprétraitement et (2) la création d'un programme pour prétraiter automatiquement les corpus annotés, afinde réduire les erreurs de la TANP et d'améliorer la qualité de traduction des systèmes de TA, tels queGoogle, Vietgle, Bing et EVTran. L'efficacité de différentes méthodes d'annotation des corpus avec des NP ainsi que les tauxd'erreurs de la TANP avant et après l'application du programme de prétraitement sur les deux corpusannotés est comparés et discutés dans cette thèse. Ils prouvent que le prétraitement réduitsignificativement le taux d'erreurs de la TANP et, par la même, contribue à l'amélioration de traductionautomatique vers la langue vietnamienne.