Évaluation de la traduction automatique au niveau du document

par Mariam Nakhle

Projet de thèse en Informatique

Sous la direction de Emmanuelle Esperanca-rodier et de Hervé Blanchon.

Thèses en préparation à l'Université Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de GETALP - Groupe d'Etude en Traduction/Traitement des Langues et de la Parole (ancien labo Clips) (equipe de recherche) depuis le 01-09-2022 .


  • Résumé

    La traduction automatique neuronale (TAN) a connu de grands progrès ces dernières années, notamment suite à l'introduction du modèle Transformer. La qualité des moteurs de traduction s'est largement améliorée et certains auteurs ont même déclaré une parité statistique entre la traduction automatique et humaine. Pourtant, il s'est avéré que cette parité était due au protocole d'évaluation des phrases isolées, sans prendre en compte le contexte. Cela a suscité l'intérêt de la communauté sur les faiblesses des systèmes de traduction qui traitaient des phrases isolées et aussi sur l'insuffisance des mesures d'évaluation traditionnelles. De ce fait, plusieurs approches intégrant le contexte du document ont été proposées. Avec l'évolution des approches de traduction automatique sensibles au contexte, les méthodes d'évaluation doivent aussi s'adapter. De nos jours, il existe des méthodes d'évaluation spécialement adaptées pour mesurer les améliorations des modèles opérant au niveau du document, pourtant elles sont peu nombreuses et ne sont pas accessibles pour toutes les langues. Les méthodes d'évaluation classiques restent encore les plus utilisées. Cette thèse a pour objectif de proposer de nouvelles méthodes et protocoles d'évaluation permettant d'estimer efficacement la qualité des systèmes de traduction tout en prenant en compte les relations interphrastiques dans les documents.

  • Titre traduit

    Document-level machine translation evaluation


  • Résumé

    Neural machine translation (NMT) has made great progress in recent years, especially following the introduction of the Transformer model. The quality of translation engines has improved greatly and some authors have even claimed statistical parity between machine and human translation. However, it turned out that this parity was due to the protocol of evaluating isolated sentences, without taking the context into account. This raised the interest of the community on the weaknesses of translation systems that deal with isolated sentences and also on the inadequacy of the traditional evaluation methods. As a result, several approaches that incorporate the context of the document have been proposed. With the evolution of context-sensitive machine translation approaches, evaluation methods also need to adapt. Nowadays, there are evaluation methods specifically made to measure improvements in document-level models, yet they are scarce and not available for all languages. Classical evaluation methods are still the most widely used. The aim of this thesis is to propose new evaluation methods and protocols that can efficiently estimate the quality of translation systems while taking into account interphrastic relations in documents.