Thèse soutenue

De l'étiquetage syntaxique pour les grammaires catégorielles de dépendances à l 'analyse par transition dans le domaine de l'analyse en dépendances non-projective

FR  |  
EN
Auteur / Autrice : Ophélie Lacroix
Direction : Colin de La HigueraDenis Béchet
Type : Thèse de doctorat
Discipline(s) : Informatique et linguistique
Date : Soutenance en 2014
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
autre partenaire : Université de Nantes. Faculté des sciences et des techniques
Jury : Président / Présidente : Christian Retoré
Examinateurs / Examinatrices : Christian Retoré, Matthieu Constant, Alexis Nasr
Rapporteurs / Rapporteuses : Matthieu Constant, Alexis Nasr

Résumé

FR  |  
EN

Cette thèse prend place dans le domaine de l’analyse syntaxique en dépendances. D���une part nous étudions l’impact d’une méthode statistique d’étiquetage syntaxique sur un analyseur basé sur les grammaires catégorielles de dépendances. Nous proposons en ce sens un processus complet de pré-annotation comprenant la segmentation des phrases en mots (incluant les mots composés), l’étiquetage grammatical et syntaxique de ces mots et l’analyse en dépendances de la phrase dans le but d’alléger le travail des annotateurs dans le cadre de la construction de corpus en dépendances non-projectifs pour le français. D’autre part, nous étudions également les méthodes intégralement dirigées par les données dans le domaine de l’analyse en dépendances à travers l’adaptation d’un analyseur par transition à la représentation en dépendances des grammaires catégorielles de dépendances. Puis nous proposons une méthode séparant les étapes de prédiction des dépendances projectives et non-projectives dans le but d’améliorer la prédiction des dépendances non-projectives. Nous montrons que cette méthode est adaptable à n’importe quel corpus en dépendances standard.