Thèse en cours

Traduction Automatique Neuronale Robuste

FR  |  
EN
Auteur / Autrice : Lydia Nishimwe
Direction : Benoît Sagot
Type : Projet de thèse
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Inscription en doctorat le 01/10/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : INRIA Paris

Résumé

FR  |  
EN

Ces dernières années ont vu des améliorations significatives aux applications de traitement automatique du langage naturel (TALN) et à la traduction automatique (TA) en particulier, notamment grâce aux approches d'apprentissage profond. Cependant, les modèles de TA de pointe, qui nécessitent généralement de grandes quantités de données pour être entraînés correctement, peinent lorsqu'ils sont utilisés pour traduire des textes qui diffèrent du type de données utilisées pour les entraîner. La traduction automatique de textes dits "non standards", tels que ceux produits par les utilisateurs de réseaux sociaux et les joueurs en ligne, constitue un exemple de ce type de défi. Outre la rareté relative des ressources parallèles pour former des modèles adaptés à ce type de données, ces textes posent de nouveaux défis en raison de la nature de la "non standardité" elle-même, qui peut être variable, productif et donc imprévisible à l'avance (utilisation non standard de l'orthographe, de la grammaire et du vocabulaire, erreurs typographiques, utilisation d'emojis, etc.). De plus, l'interprétation correcte de ces textes peut être fortement contextuelle, nécessitant des informations sur le contexte dans lequel les textes ont été produits (par exemple, règles du jeu, connaissances partagées, nouvelles), ainsi que le contexte linguistique (c'est-à-dire les phrases précédentes). Les caractéristiques de ces textes sont souvent très spécifiques à une communauté d'utilisateurs, ce qui nécessite une adaptation du domaine aux particularités du sociolecte. L'amélioration de la TA des textes non standards est un domaine de recherche florissant et différentes approches ont été développées pour traiter le problème, par exemple la création de données synthétiques, l'apprentissage adverse et l'utilisation de modèles basés sur les caractères. Des ensembles de tests spécifiques pour évaluer et comparer ces méthodes ont également été développés. Le sujet de thèse proposé est l'exploration de nouvelles approches de TA neuronale robuste, y compris les méthodes d'augmentation des données, la proposition de stratégies de représentation pour les modèles neuronaux et de nouvelles architectures pour traiter les phénomènes rencontrés dans les textes non standards.