Résolution de coréférence dans les traductions machines

par Fabien Lopez

Projet de thèse en Informatique

Sous la direction de Didier Schwab.

Thèses en préparation à l'Université Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) depuis le 01-03-2022 .


  • Résumé

    Coreference REsolution into MAchine Translation (CREMA) Le projet CREMA a comme objectif l'amélioration de la traduction automatique neuronale au niveau du document (en anglais 'Document-Level Neural Machine Translation', DL-NMT) grâce à l'intégration dans une architecture neuronale pour la traduction d'un module pour la résolution de coréférences. La DL-NMT est l'un des axes de recherche le plus à la pointe en ce moment, et avec des enjeux importants à la fois dans les retombées scientifiques et dans les domaines applicatifs. Les modèles actuels pour la DL-NMT intègrent un contexte pour améliorer la traduction sous forme d'un nombre fixé de phrases passées. Il a été montré cependant que la plupart des mots d'une phrase peuvent être bien traduit sans besoin de contexte. Bien que les mots nécessitant un contexte soient relativement rares, leur correcte traduction est cruciale pour une traduction de bonne qualité d'un document. De plus, les informations contenues dans le contexte qui sont utiles pour bien traduire certains mots sont aussi relativement rares. Par conséquence l'utilisation brute d'un contexte de phrase fixé peut noyer l'information utile pour la bonne traduction des mots ambigües. La littérature a montré que ces mots sont surtout ceux impliqués dans les phénomènes discursifs, comme par exemple les anaphores ou les coréférences. L'objectif du projet CREMA est alors d'intégrer un module de résolution de coréférences dans un modèle de traduction automatique neuronale. Ce module va repérer les phrases contenant les mots qui nécessitent un contexte pour leur correcte traduction, ainsi que les mots utiles pour les désambigüiser. Le modèle de traduction pourra alors utiliser uniquement ces phrases comme contexte, au lieu d'un nombre de phrase fixé à priori. Cette thèse sera axée en partie sur la création d'un système neuronal bout-en-bout pour la résolution de coréférences. Ce système s'inspirera des systèmes existants et sera évalué sur les mêmes jeux de données. Une autre partie de la thèse visera à intégrer ce modèle dans un système de traduction automatique neuronal existant. Le système complet sera évalué sur les jeux de données classiques de la littérature pour l'évaluation de systèmes DL-NMT.

  • Titre traduit

    Coreference REsolution into MAchine Translation


  • Résumé

    Oreference REsolution into MAchine Translation (CREMA) The CREMA project aims at improving Document-Level Neural Machine Translation models (DL-NMT) by integrating a module for coreference resolution in a neural translation model. DL-NMT is currently one of the most interesting research directions, and it has remarkable fallout both on scientific and applicative domains. Current models for DL-NMT integrate a context for improving translation consisting of a fixed number of previous sentences. Previous work has shown however that most of the words in a sentence can be correctly translated without any context. While words needing a context are relatively rare in sentences, their correct translation has a remarkable impact on the quality of document translations. Moreover, information contained in the context and needed for the correct translation of some words are rare as well. As consequence, the utilisation of a fixed number of sentences as context may drawn in the noise words bringing such information. The literature has shown that the most ambiguous words to be translated are those involved in discourse phenomena, in particular anaphora and coreferences. The objectif of the project CREMA is thus to integrate a coreference resolution module in a neural translation system. This module will detect sentences containing words needing a context for their translation, as well as those sentences containing disambiguating clues. The translation model will be able thus to use only such sentences as context, instead of a fixed number of sentences chosen in advance. The Ph.D. program will focus at first on creating an end-to-end coreference resolution system. Such system will be inspired from existing systems and will be evaluated on the same data. In a second time, the Ph.D. objective will be to integrate the coreference resolution model into an existing neural translation system. The complete system will be evaluated on the traditional data sets used for the evaluation of DL-NMT models.