Traduction automatique pour des variétés dialectales peu dotées
Auteur / Autrice : | Oriane Nédey |
Direction : | Benoît Sagot |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 01/10/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : INRIA Paris |
Résumé
Le Traitement Automatique des Langues (TAL) a connu des changements spectaculaires au cours de la dernière décennie, grâce aux approches neuronales et à l'augmentation des ressources computationnelles. Ces développements ont permis l'entraînement de modèles à grande échelle et la création de vastes jeux de données, conduisant à des améliorations substantielles dans diverses tâches de TALN. Bien que la majorité de ces recherches soient menées sur l'anglais, une attention croissante est portée à d'autres langues, y compris celles disposant de ressources limitées. Malgré ces efforts, les langues peu dotées rencontrent encore des défis considérables, en particulier lorsqu'il s'agit de générer du texte dans ces langues,. Les approches multilingues peuvent aider, mais les données restent cruciales pour obtenir des gains de performance. Pour de nombreuses langues peu dotées, des défis supplémentaires s'ajoutent : manque de standardisation, multiples variétés dialectales formant souvent - mais pas toujours - un continuum dialectal, et conventions orthographiques variées. Un exemple de langue présentant ces deux types de variations est l'occitan, une langue romane parlée dans une région qui englobe approximativement la moitié sud de la France et de petites parties de la Catalogne et de l'Italie. L'occitan est un continuum dialectal traditionnellement divisé en cinq ou six dialectes principaux. L'orthographe n'est pas uniforme non plus, avec principalement deux conventions orthographiques dans les textes contemporains. Une troisième dimension de variation est la diachronie : l'occitan est attesté dès le 10ème siècle, et fut la langue de la poésie des troubadours médiévaux. Malgré son importance historique et culturelle, l'occitan est une langue sous-représentée dans le TAL en général, et dans la traduction automatique (TA) en particulier. Il y a eu divers efforts de création d'outils et de ressources pour l'occitan, y compris pour l'étiquetage grammatical, la lemmatisation et les plongements de mots pour l'induction de lexiques bilingues. Les efforts pour la TA de/vers l'occitan ont apporté des modèles et des benchmarks de TA compétitifs, mais n'abordent pas la génération vers de multiples variétés dialectales. Ce projet de thèse se concentre sur la TA et le TAL pour les variantes dialectales peu dotées, en utilisant l'occitan comme étude de cas. Un aspect clé sera la modélisation à la fois des variantes dialectales et des différentes conventions orthographiques afin de pouvoir gérer la variation présente dans le continuum, mais aussi de pouvoir générer des textes dans des variétés spécifiques. Les stratégies incluront des méthodes utilisées pour aborder la TA dans les scénarios peu dotés et la traduction de dialectes peu dotés apparentés. Il est envisagé d'adapter des approches de génération contrôlée pour générer du texte le long d'un continuum, c'est-à-dire produire une variété dialectale particulière cohérente. Diverses approches existent, allant de contraintes latérales discrètes (par exemple, des tokens préfixés) aux plongements contextuels ou, plus récemment, à l'ingénierie des prompts et aux vecteurs de pilotage avec de grands modèles de langage (LLMs). Plusieurs scénarios pourraient être envisagés : s'adapter à des variétés identifiées apprises à l'avance ou inférer une variété à partir d'un exemple de texte donné. Dans le second cas, le modèle peut connaître la variété en amont, et doit inférer la variété à générer, ou il peut ne pas connaître la variété mais doit inférer comment transférer les conventions du texte à un nouveau texte (comme dans le transfert de style). Quel que soit le chemin envisagé, une attention particulière devra être portée à la génération d'une variété cohérente d'une langue (c'est-à-dire sans mélanger plusieurs conventions). Pour cela, des stratégies d'évaluation robustes seront envisagées, y compris l'interaction avec des locuteurs natifs qui peuvent fournir des jugements sur les textes générés.