Difficultés de traduction automatique des groups nominaux complexes dans les articles de recherche en langue de spécialité médicale et dans le domaine du TAL : pistes pour la formation des postéditeurs professionnels ou occasionnels.
Auteur / Autrice : | Maud Benard |
Direction : | Natalie Kubler |
Type : | Projet de thèse |
Discipline(s) : | Sciences du langage - linguistique |
Date : | Inscription en doctorat le 24/08/2020 |
Etablissement(s) : | Université Paris Cité |
Ecole(s) doctorale(s) : | 622 - SCIENCES DU LANGAGE |
Partenaire(s) de recherche : | Equipe de recherche : URP 3967 CLILLAC-ARP |
Mots clés
Résumé
Si la traduction automatique neuronale (TAN) s’est imposée depuis les années 2010 grâce à un bond qualitatif indiscutable et une réduction de certains efforts de post-édition, elle n’est pas exempte d’erreurs. Or, son usage se développe, tant dans la traduction professionnelle que comme aide à la rédaction et à la compréhension par les non professionnels, dont les experts et les chercheurs non-linguistes. En effet, dans le domaine scientifique, l’anglais est la langue privilégiée pour les publications et les rencontres internationales. Toutefois, le discours scientifique anglais se caractérise par le recours important et croissant aux syntagmes nominaux complexes (syntagmes nominaux comprenant un nom tête et un ou plusieurs modifieurs), en particulier dans les articles de recherche. La complexité de ces syntagmes peut être accrue par la multiplication des éléments de complexification pour un même syntagme considéré. Ces particularités d’usage et de construction constituent un obstacle important à leur compréhension, leur production et leur traduction depuis et vers le français qui présente une plus faible tendance à la nominalisation. De plus, si le discours scientifique a longtemps été considéré comme unique et monolithique, il est aujourd’hui reconnu que des variations existent selon les disciplines et les contextes de communication. Cela est particulièrement vrai pour les articles de recherche et la construction des syntagmes nominaux complexes (SNC) n’échappe pas à cette tendance. Dans ce cadre, une analyse de la capacité des systèmes de TAN à traiter certains SNC particulièrement complexes et tirés de textes spécialisés authentiques prend tout son sens. L’étude que nous menons dans le cadre de cette thèse repose sur une analyse de corpus d’articles de recherche rédigés en anglais, provenant de deux domaines de spécialité différents et traduits en français simultanément par plusieurs systèmes. Pour le domaine médical, quatre systèmes sont comparés : un système généraliste et le même système entraîné dans le domaine médical (développement universitaire) ; un système entraîné (développement universitaire) et un système généraliste grand public (Systran). Pour le domaine du TAL, une étude préliminaire porte plus spécifiquement sur une analyse diachronique (2019 et 2022) de deux systèmes génériques accessibles en ligne (Systran et DeepL). L'objectif final de cette thèse consiste notamment à évaluer la qualité d'un système entraîné sur des corpus spécialisés par rapport à un système généraliste. Pour cela, nous avons développé une typologie d’analyse des erreurs afin de déterminer le type et le nombre des erreurs produites par les systèmes de TA (analyses en constituants erronées, ajouts ou suppressions injustifiées, erreurs terminologiques…), et de voir si des spécificités semblent émerger en lien soit avec le degré de spécialisation des systèmes, soit avec des traits distinctifs de construction des SNC dans chaque langue de spécialité (ex. : longueur, type de modifieurs, constructions syntaxiques…). En plus de cette analyse approfondie de l’anglais vers le français, nous avons également mené une étude pilote du français vers l’anglais afin d’ébaucher une première analyse des erreurs dans ce sens de traduction et de leur typologie. Ces résultats ouvrent des perspectives d‘application notamment dans la formation à l’utilisation de ces systèmes pour les traducteurs professionnels, mais aussi pour les chercheurs d’autres disciplines.