Multi-lingual dependency parsing : word representation and joint training for syntactic analysis

par Mathieu Dehouck

Thèse de doctorat en Informatique et applications

Sous la direction de Marc Tommasi et de Pascal Denis.

Soutenue le 20-05-2019

à Lille 1 , dans le cadre de École doctorale Sciences pour l'Ingénieur (Lille) , en partenariat avec Centre de recherche en informatique, signal et automatique de Lille (laboratoire) .

  • Titre traduit

    Parsing en dépendances multilingue : représentation de mots et apprentissage joint pour l’analyse syntaxique


  • Résumé

    Les parsers en dépendances modernes ont des résultats comparables à ceux d'experts humains. Cependant, ils sont encore gourmands en données annotées et ces données ne sont disponibles que pour quelques langues. Pour rendre l'analyse syntaxique accessible aussi aux langues peu dotées, de nombreuses méthodes sont apparues comme le transfert de modèle ou d'annotation. Dans cette thèse, nous proposons de nouvelles méthodes de partage de l'information entre plusieurs langues en utilisant leurs traits grammaticaux communs.Nous utilisons cette morphologie partagée pour apprendre des représentations de mots délexicalisés qui aideront l'apprentissage de modèles d'analyse syntaxique. Nous proposons aussi une nouvelle méthode d'apprentissage nommée apprentissage phylogénétique qui utilise l'arbre généalogique des langues pour guider l'apprentissage des modèles. Enfin, à l'aide de notre mesure de la complexité morphosyntaxique nous étudions le rôle de la morphologie pour l'analyse en dépendances.


  • Résumé

    While modern dependency parsers have become as good as human experts, they still rely heavily on hand annotated training examples which are available for a handful of languages only. Several methods such as model and annotation transfer have been proposed to make high quality syntactic analysis available to low resourced languages as well. In this thesis, we propose new approaches for sharing information across languages relying on their shared morphological features. In a fist time, we propose to use shared morphological features to induce cross-lingual delexicalised word representations that help learning syntactic analysis models. Then, we propose a new multi-task learning framework called phylogenetic learning which learns models for related tasks/languages guided by the tasks/languages evolutionary tree. Eventually, with our new measure of morphosyntactic complexity we investigate the intrinsic role of morphological information for dependency parsing.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.