Extraction et complétion de terminologies multilingues
Auteur / Autrice : | Valérie Hanoka-Maitenaz |
Direction : | Laurence Danlos, Benoît Sagot |
Type : | Thèse de doctorat |
Discipline(s) : | Linguistique théorique, formelle et automatique |
Date : | Soutenance en 2015 |
Etablissement(s) : | Sorbonne Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Sciences du langage (Paris ; 1992-2019) |
Partenaire(s) de recherche : | Autre partenaire : Université Paris Diderot - Paris 7 (1970-2019) |
Mots clés
Résumé
Les processus d'extraction terminologique automatique ont été jusqu'ici majoritairement conçus pour être appliqués à de corpus monolingues et dans des registres de langue uniformes. Cette thèse propose une séquence de traitements pour l'extraction automatique de « termes de terrain » qui soit faiblement dépendante de la langue, du registre de langue ou du domaine. Suivant une réflexion fondée sur différents aspects de typologie linguistique appliquée à sept langues, nous proposons des prétraitements textuels préliminaires au calcul de traits numériques pour l'entraînement de modèles statistiques de type CRF. Un ensemble de modèles sont sélectionnés grâce à une évaluation automatisée pour chaque langue. Une seconde série d'évaluations est ensuite réalisée pour étudier l'exploitabilité de ces modèles pour d'autres langues que celles sur lesquelles ils ont été entraînés. Il ressort de ces expériences que cette méthode aboutit à une extraction de termes de terrain de qualité satisfaisante. Les meilleurs scores obtenus (pour une évaluation monolingue des modèles) atteignent 0, 9 de f-score. La seconde partie de notre travail présente nos travaux relatifs à la complétion automatique de terminologies structurées multilingues. Nous avons proposé 2 algorithmes de complétion qui prennent en entrée un graphe de traduction multilingue (construit à partir de ressources libres) et une terminologie multilingue structurée. Ils proposent alors de nouveaux candidats termes pour cette dernière. Notre approche permet de compléter la terminologie structurée dans une langue qu'elle couvre déjà, mais également d'étendre sa couverture à de nouvelles langue.