Thèse en cours

Transfert semantique cross-langue pour les langues et domaines a faibles ressources.

FR  |  
EN
Auteur / Autrice : Olena Yurchenko
Direction : Natalia Grabar
Type : Projet de thèse
Discipline(s) : Sciences du langage : linguistique et phonétique générales
Date : Inscription en doctorat le 06/11/2023
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : École doctorale Sciences de l'homme et de la société
Partenaire(s) de recherche : Laboratoire : Savoirs, Textes, langages

Résumé

FR  |  
EN

Les technologies d'apprentissage machine appliquées au traitement automatique du langage naturel (TALN) ont fait des progrès remarquables ces derniers temps. Ils sont étroitement liés à l'émergence de représentations plus contextuelles des données textuelles, qui peuvent être exploitées pour traiter un large éventail de tâches. En outre, les applications potentielles de ces technologies s'étendent à la résolution des défis liés à l'assimilation linguistique et culturelle des migrants ou à la facilitation de l'adaptation des professionnels à de nouveaux domaines. La représentation des données textuelles tourne autour de modèles linguistiques d'apprentissage profond étendus, pré-entraînés sur de vastes ensembles de données. Ces modèles sont devenus des composants indispensables des engins de recherche, des chat bots, des systèmes de traduction automatique, etc. Néanmoins, dans de nombreux domaines professionnels spécialisés et dans des langues aux ressources faibles, ils dépendent fortement de la disponibilité de volumes de données importants. Une stratégie visant à atténuer cette contrainte consiste à adopter une approche de transfert cross-lingue, dans laquelle, les ressources accessibles dans une langue à ressources élevées sont exploitées pour construire des systèmes correspondants dans la langue souhaitée. Par conséquent, le développement des plongements lexicaux fiables reposant sur un minimum d'exemples parallèles apparaît comme un domaine de recherche d'une grande importance. Le transfert cross-lingue est souvent confronté à des difficultés pour atteindre la flexibilité nécessaire aux scénarios de communication linguistique dans le monde réel. Cette limitation découle de la façon dont les mots sont combinés de manière non compositionnelle pour créer des expressions des mots (syntagmes) dont les significations ne peuvent pas être directement dérivées des représentations standard de leurs composants individuels. Il devient donc impératif non seulement de posséder des représentations cross-linguistiques de mots individuels, mais aussi de construire des plongements lexicaux précis pour les phrases, les syntagmes et d'autres représentations cross-linguistiques de haut niveau. Pour relever ces défis, nous proposons le développement d'un modèle de transfert sémantique cross-lingue, qui vise à améliorer notre capacité à gérer la riche variabilité et la diversité inhérentes au langage naturel, en facilitant le transfert de significations similaires entre différentes langues et domaines professionnels. Les questions clés de la recherche : 1) L'ensemble de données de formation doit-il être centré sur l'anglais ? 2) La collecte de paires de langues à faibles ressources est-elle une nécessité ? 3) Quel est le nombre optimal de paires de langues nécessaires pour affiner efficacement le modèle cross-lingue ? Dans cette étude, nous avons l'intention d'appliquer l'analyse sémantique et l'analyse du discours au domaine médical, en couvrant différents niveaux linguistiques, du commun au professionnel. Nous nous concentrerons sur les exemples du Français et de l'Ukrainien, pensant que cette approche nous permettra de découvrir et de décrire les caractéristiques principales du modèle de transfert de sens par plongements lexicaux dans chaque langue. Pour évaluer l'efficacité de modèle de transfert sémantique, on utilise des tâches de reconnaissance d'entités nommées et de réponse à des questions. Notre évaluation est fondée sur l'utilisation de dictionnaires combinatoires lexicaux existants pour l'anglais et le français, ainsi que de corpus médicaux parallèles disponibles pour le français et l'ukrainien, qui servent de référence pour la vérification. Notre principal critère pour évaluer la validité du modèle réside dans l'évaluation quantitative du contenu linguistique des enchâssements sémantiques générés. Pour ce faire, nous maximisons la corrélation entre les résultats du modèle et les ressources linguistiques annotées manuellement.