Understanding and Evaluating Unsupervised Cross-lingual Embeddings in the General and in the Clinical Domains

Félix Gaschi

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Comprendre et évaluer les embeddings multilingues non supervisés dans les domaines général et clinique

FR |

EN

Auteur / Autrice :	Félix Gaschi
Direction :	Yannick Toussaint
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 14/12/2023
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : François Yvon
	Examinateurs / Examinatrices : Yannick Toussaint, Asma Ben Abacha, Annie Lee, Parisa Rastin
	Rapporteurs / Rapporteuses : François Yvon, Anders Søgaard

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage profond

Traitement automatique du langage naturel

Apprentissage automatique

Mots clés libres

Apprentissage machine

Traitement automatique du language

Apprentissage profond

Résumé

FR |

EN

Les données labellisées et non labellisées sont plus souvent disponibles en anglais que dans d'autres langues. Dans le domaine clinique, les données non anglaises peuvent être encore plus rares. Les représentations, ou plongements lexicaux, multilingues peuvent avoir deux propriétés utiles dans cette situation. La première est l'alignement multilingue, où les représentations de différentes langues partagent le même espace latent. Plus concrètement, les mots qui sont la traduction l'un de l'autre doivent avoir des représentations similaires. La deuxième propriété est l'apprentissage par transfert cross-lingue : il permet à un modèle d'être entraîné sur une tâche supervisée dans une langue et de fournir de bons résultats pour la même tâche dans une autre langue, sans avoir besoin de données annotées dans cette langue. Cette thèse aborde certaines lacunes dans la littérature concernant la compréhension des représentations multilingues. Elle étudie notamment le lien entre l'alignement multilingue et le transfert cross-lingue, en montrant que les modèles, comme mBERT et XLM-R, qui peuvent effectuer ce transfert cross-lingue produisent des représentations qui ont une forme plus forte d'alignement multilingue que d'autres représentations qui ont été explicitement entraînés pour un tel alignement. Est également révélée la forte corrélation entre les capacités de transfert cross-lingue et l'alignement multilingue, ce qui suggère que ces deux propriétés multilingues sont liées. Ce lien permet d'améliorer le transfert cross-lingue pour les petits modèles en améliorant simplement l'alignement, ce qui peut leur permettre d'égaler les performances de grands modèles, mais seulement pour une tâche de bas niveau comme l'étiquetage POS, en raison de l'impact du fine-tuning lui-même sur l'alignement multilingue. Tout en se concentrant principalement sur le domaine général, cette thèse évalue finalement le transfert multilingue dans le domaine clinique. Elle montre que les méthodes basées sur la traduction peuvent atteindre des performances similaires à celles du transfert multilingue, mais qu'elles nécessitent plus de soin dans leur conception. Et bien qu'elles puissent tirer parti de modèles linguistiques cliniques monolingues, ceux-ci ne garantissent pas de meilleurs résultats que les larges modèles multilingues à usage général, que ce soit avec le transfert cross-lingue ou par traduction.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Comprendre et évaluer les embeddings multilingues non supervisés dans les domaines général et clinique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Comprendre et évaluer les embeddings multilingues non supervisés dans les domaines général et clinique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses