Thèse soutenue

Traduction automatique des noms propres de l’anglais et du français vers le vietnamien : analyse des erreurs et quelques solutions

FR  |  
EN
Auteur / Autrice : Thao Phan Thi Thanh
Direction : Sylviane Cardey-GreenfieldLê An HàIzabella Thomas
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 11/03/2014
Etablissement(s) : Besançon
Ecole(s) doctorale(s) : Ecole doctorale Langages, Espaces, Temps, Sociétés (Besançon ; 1991-2016)
Partenaire(s) de recherche : Laboratoire : Centre de recherche en linguistique et traitement automatique des langues, Lucien Tesnière (Besançon) - http://indexation.univ-fcomte.fr/nuxeo/site/esupversions/81d05334-21f9-44e1-9638-20e7a88a6223
Jury : Président / Présidente : Denis Maurel
Examinateurs / Examinatrices : Sylviane Cardey-Greenfield, Lê An Hà, Izabella Thomas, Denis Maurel, Ruslan Mitkov
Rapporteurs / Rapporteuses : Denis Maurel, Ruslan Mitkov

Résumé

FR  |  
EN

Dans l'ère de l'information et de la connaissance, la traduction automatique (TA) devientprogressivement un outil indispensable pour transposer la signification d'un texte d'une langue source versune langue cible. La TA des noms propres (NP), en particulier, joue un rôle crucial dans ce processus,puisqu'elle permet une identification précise des personnes, des lieux, des organisations et des artefacts àtravers les langues. Malgré un grand nombre d'études et des résultats significatifs concernant lareconnaissance d'entités nommées (dont le nom propre fait partie) dans la communauté de TAL dans lemonde, il n'existe presque aucune recherche sur la traduction automatique des noms propres (TANP) pourle vietnamien. En raison des caractéristiques différentes d'écriture de NP, la translittération ou la transcription etla traduction de plusieurs de langues incluant l'anglais, le français, le russe, le chinois, etc. vers levietnamien, le TANP de ces langues vers le vietnamien est stimulant et problématique. Cette étude seconcentre sur les problèmes de TANP d’anglais vers le vietnamien et de français vers le vietnamienrésultant du moteurs courants de la TA et présente les solutions de prétraitement de ces problèmes pouraméliorer la qualité de la TA. A travers l'analyse et la classification d'erreurs de la TANP faites sur deux corpus parallèles detextes avec PN (anglais-vietnamien et français-vietnamien), nous proposons les solutions concernant deuxproblématiques importantes: (1) l'annotation de corpus, afin de préparer des bases de données pour leprétraitement et (2) la création d'un programme pour prétraiter automatiquement les corpus annotés, afinde réduire les erreurs de la TANP et d'améliorer la qualité de traduction des systèmes de TA, tels queGoogle, Vietgle, Bing et EVTran. L'efficacité de différentes méthodes d'annotation des corpus avec des NP ainsi que les tauxd'erreurs de la TANP avant et après l'application du programme de prétraitement sur les deux corpusannotés est comparés et discutés dans cette thèse. Ils prouvent que le prétraitement réduitsignificativement le taux d'erreurs de la TANP et, par la même, contribue à l'amélioration de traductionautomatique vers la langue vietnamienne.