Modèle de traduction statistique à fragments enrichi par la syntaxe

Vassilina Nikoulina

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Vassilina Nikoulina
Direction :	Christian Boitet, Marc Dymetman
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance en 2010
Etablissement(s) :	Grenoble
Ecole(s) doctorale(s) :	École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble199.-....)
Jury :	Président / Présidente : Laurent Besacier
	Examinateurs / Examinatrices : François Yvon
	Rapporteurs / Rapporteuses : Yves Lepage, Holger Schwenk

Mots clés

FR

Mots clés contrôlés

Apprentissage automatique

Évaluation

Traduction automatique

Résumé

FR |

EN

Les modèles de traduction automatique probabiliste traditionnel ignorent la structure syntaxique des phrases source et cible. Le choix des unités lexicales cible et de leur ordre est contrôlé uniquement par des statistiques de surface sur le corpus d'entraînement. La connaissance de la structure linguistique peut-être bénéfique, car elle fournit des informations génériques compensant la pauvreté des données directement observables. Nos travaux ont pour but d'étudier l'impact des informations syntaxiques sur un modèle de traduction probabiliste de base, fondé sur des fragments, dans le cadre d'un analyseur dépendanciel particulier, XIP, dont la performance est bien adaptée à nos besoins. Nous étudions d'abord l'intégration des informations syntaxiques dans un but de reclassement des traductions proposées par le modèle de base? Nous définissons un ensemble de traits mesurant la similarité entre les structures de dépendance source et cible, et des traits de cohérence linguistique (basés sur l'analyse cible). L'apprentissage automatique des poids de ces traits permet de détecter leurs importance. L'évaluation manuelle des différents modèles de reclassement nous a permis de montrer le potentiel de ces traits pour améliorer la qualité des traductions proposées par le modèle de base. Ensuite, nous avons proposé un modèle pour réduire la taille du graphe des hypothèses exploré par le modèle de base à l'aide de connaissances sur la structure syntaxique source. Nous avons également proposé une procédure de décomposition d'une phrase source initiale en sous-phrases pour simplifier la tâche de traduction. Les évaluations initiales de ces modèles se sont montrées prometteuses.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèle de traduction statistique à fragments enrichi par la syntaxe

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèle de traduction statistique à fragments enrichi par la syntaxe

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses