Thèse soutenue

Construction et évaluation pour la TA d'un corpus journalistique bilingue : application au français-somali

FR  |  
EN
Auteur / Autrice : Houssein Ahmed Assowe
Direction : Hervé Blanchon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/05/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Equipe de recherche : Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole
Jury : Président / Présidente : Christophe Roche
Rapporteurs / Rapporteuses : Mathieu Lafourcade, Max Silberztein

Résumé

FR  |  
EN

Dans le cadre des travaux en cours pour informatiser un grand nombre de langues « peu dotées », en particulier celles de l’espace francophone, nous avons créé un système de traduction automatique français-somali dédié à un sous-langage journalistique, permettant d’obtenir des traductions de qualité, à partir d’un corpus bilingue construit par post-édition des résultats de Google Translate (GT), à destination des populations somalophones et non francophones de la Corne de l’Afrique. Pour cela, nous avons constitué le tout premier corpus parallèle français-somali de qualité, comprenant à ce jour 98 912 mots (environ 400 pages standard) et 10 669 segments. Ce dernier constitue’est un corpus aligné, et de très bonne qualité, car nous l’avons construit en post-éditant les pré-traductions de GT, qui combine pour cela avec une combinaison de lason système de TA français-anglais et système de TA anglais-somali. Il Ce corpus a également fait l’objet d’une évaluation de la part depar 9 annotateurs bilingues qui ont donné une note score de qualité à chaque segment du corpus, et corrigé éventuellement notre post-édition. À partir de ce corpus, en croissance, nous avons construit plusieurs versions successives d’un système de Traduction Automatique à base de fragments (PBMT), MosesLIG-fr-so, qui s’est révélé meilleur que GoogleTranslate GT sur ce couple de langues et ce sous-langage, en termes de mesure BLEU et du temps de post-édition. Nous avons fait également une première expérience de traduction automatique neuronale français-somali en utilisant OpenNMT, de façon à améliorer les résultats de la TA sans aboutir à des temps de calcul prohibitifs, tant durant l’entraînement que durant le décodage.D’autre part, nous avons mis en place une iMAG (passerelle interactive d’accès multilingue) qui permet à des internautes somaliens non francophones du continent d’accéder en somali à l’édition en ligne du journal « La Nation de Djibouti ». Les segments (phrases ou titres) prétraduits automatiquement par notre un système de TA fr-so en ligne disponible peuvent être post-édités et notés (sur sur une échelle de 1 à 20) par les lecteurs eux-mêmes, de façon à améliorer le système par apprentissage incrémental, de la même façon que ce qui a été fait pour le système français-chinois (PBMT) créé par [Wang, 2015].