Thèse soutenue

Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Christophe Chenon
Direction : Christian Boitet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Grenoble 1

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

La traduction assistée par ordinateur a connu un grand essor dans les années 1990 avec l'arrivée des environnements à mémoires de traduction. Ces systèmes exploitent la redondance des textes techniques produits et traduits dans l'industrie, en proposant aux traducteurs de réutiliser des traductions archivées et d'accroître ainsi leur productivité. Ces mémoires utilisent, sans analyse, des segments de textes (le plus souvent des phrases entières) dont le découpage et l'alignement sont garantis par le traducteur. Pourtant ces mémoires recèlent des gisements d'information importants au niveau sous-phrastique dont les utilisateurs ne peuvent pas bénéficier. Le formalisme TransTree permet de représenter des correspondances sous-segmentales enchassées bilingues. Ces correspondances complexes (les amphigrammes) forment une structure arborescente exprimable en XML. Une transformation de surface conduit à une visualisation dynamique mettant en évidence les différents niveaux de correspondance entre sous-segments. TransTree s'accompagne d'une méthode générale de construction par voie statistique, fondée sur les arbres binaires de sécabilité. Cette méthode permet d'établir des amphigrammes à partir des correspondances entre mots typographiques. Il est possible d'abstraire des patrons de traduction (amphigrammes génériques) par classification des exemples rencontrés dans le corpus. Quelques expérimentations ont été effectuées pour valider le pouvoir d'expression du formalisme, explorer différentes options de construction et esquisser un algorithme de reconstitution d'un segment cible à partir d'un segment source inconnu avec la connaissance extraite des mémoires de traduction.