Un treebank pour le serbe : constitution et exploitations

Aleksandra Miletic

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Un treebank pour le serbe : constitution et exploitations

FR |

EN

Auteur / Autrice :	Aleksandra Miletic
Direction :	Cécile Fabre, Dejan Stosic
Type :	Thèse de doctorat
Discipline(s) :	Sciences du langage
Date :	Soutenance le 20/06/2018
Etablissement(s) :	Toulouse 2
Ecole(s) doctorale(s) :	École doctorale Comportement, Langage, Éducation, Socialisation, Cognition (Toulouse)
Partenaire(s) de recherche :	Laboratoire : Cognition, langues, langage, ergonomie (Toulouse ; 2006-....)
Jury :	Président / Présidente : Veran Stanojevic
	Examinateurs / Examinatrices : Cécile Fabre, Dejan Stosic, Paola Merlo, Sylvain Kahane, Marie-Hélène Candito
	Rapporteurs / Rapporteuses : Paola Merlo, Sylvain Kahane

Mots clés

FR |

EN

Mots clés contrôlés

Traitement automatique du langage naturel

Syntaxe

Serbe (langue)

Corpus linguistique

Mots clés libres

Treebank

Serbe

Parsing

Résumé

FR |

EN

Au début de cette thèse, aucun corpus annoté syntaxiquement (treebank) n’était disponible pour le serbe. Or, les treebanks annotés manuellement sont une condition sine qua non du développement (entraînement et évaluation) d’outils statistiques dédiés à l’annotation syntaxique automatique (parsers). L’existence des parsers performants permet à son tour l’annotation syntaxique de corpus plus larges, qui peuvent ensuite alimenter des recherches en linguistique théorique. De fait, l’absence de ces ressources pour le serbe freine le développement des recherches sur cette langue dans ces deux directions, et plus généralement les efforts visant l’informatisation et la valorisation du serbe. Afin de combler cette lacune, nous avons constitué un ensemble de ressources pour le traitement automatique du serbe. Il s’agit en premier lieu du treebank ParCoTrain-Synt, qui contient 101 000 tokens annotés en morphosyntaxe, en lemmes et en syntaxe de dépendances. Nous avons également confectionné le lexique ParCoLex, doté de 7 millions d’entrées provenant de 157 000 lemmes différents. En exploitant ces deux ressources, nous avons développé des modèles pour le parsing, pour l’étiquetage et pour la lemmatisation.Toutes les ressources citées sont librement diffusées à l’adresse suivante : https://github.com/aleksandra-miletic/serbian-nlp-resources. Les ressources constituées ont également été exploitées dans le cadre de deux études linguistiques, montrant ainsi que le corpus ParCoTrain-Synt ouvre la porte aux études empiriques basées sur des analyses quantitatives dans le domaine de la linguistique serbe.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Un treebank pour le serbe : constitution et exploitations

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Un treebank pour le serbe : constitution et exploitations

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses