Alignements neuronaux hiérarchiques: des charactères aux phrases

par Anh khoa Ngo Ho

Projet de thèse en Informatique

Sous la direction de François Yvon.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2017 .


  • Résumé

    L'alignement consiste à mettre en correspondance des unités au sein de bitextes, associant un texte en langue source et sa traduction dans une langue cible. L'alignement peut se concevoir à plusieurs niveaux: entre phrases, entre groupes de mots, entre mots, voire à un niveau plus fin lorsque l'une des langues est morphologiquement complexe, ce qui implique d'aligner des fragments de mot (morphèmes). L'alignement peut être envisagé également sur des structures linguistiques plus complexes des arbres ou des graphes. Il s'agit d'une tâche complexe, sous-spécifiée, que les humains réalisent avec difficulté. Son automatisation est un problème exemplaire du traitement des langues, historiquement associé aux premiers modèles de traduction probabilistes. L'arrivée à maturité de nouveaux modèles pour le traitement automatique des langues, reposant sur des représentationts distribuées calculées par des réseaux de neurones permet de reposer la question du calcul de ces alignements. Cette recherche vise donc à concevoir des modèles neuronaux susceptibles d'être appris sans supervision pour dépasser certaines des limitations des modèles d'alignement statistique et améliorer l'état de l'art en matière de précision des alignements automatiques.

  • Titre traduit

    Hiérarchical Neural alignments: from character-level to sentence-level alignments


  • Résumé

    Alignment consists of establishing a mapping between units in a bitext, combining a text in source language and its translation in a target language. Alignments can be computed at several levels: between phrases, between phrases, between words, or even between smaller units end when one of the languages is morphologically complex, which implies to align fragments of word (morphemes). Alignments can also be considered between more complex linguistic structures such as trees or graphs. This is a complex, under-specified task that humans accomplish with difficulty. Its automation is an notoriously difficult problem in natural language processing (NLP), historically associated with the first probabilistic word-based translation models. The design of new models for NLP, based on distributed représentationts computed by neural networks, allows us to question and revisit the computation of these alignments. This research project therefore aims to design neural models that can be learned without supervision to overcome some of the limitations of existing statistical alignment models and to improve the state of art in terms of alignment accuracy.