Auteur / Autrice : | Yixuan Li | |
Direction : | Kim Gerdes | |
Type : | Projet de thèse | |
Discipline(s) : | Sciences du langage | |
Date : | Inscription en doctorat le 06/11/2018 | Soutenance le 29/01/2024 |
Etablissement(s) : | Paris 3 | |
Ecole(s) doctorale(s) : | École doctorale Sciences du langage (Paris ; 2019-....) | |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de phonétique et phonologie (Paris) |
Mots clés
Résumé
Cette thèse vise à contribuer au domaine de la recherche en automatisant la génération de variations lexicales pour les termes techniques présents dans les demandes de brevet chinoises. Elle réalise cela grâce à deux contributions majeures. Tout d’abord, un analyseur de dépendance au niveau des caractères, spécifiquement pré-entrainé sur les demandes de brevet chinoises, est développé. Cet analyseur permet d’analyser la structure interne des termes et évite ainsi le problème de segmentation qui existe depuis longtemps en chinois. Deuxièmement, une taxonomie technique est construite en se basant sur les titres de la Classification internationale des brevets (IPC), fournissant des substituts prometteurs d’hyperonymes/hyponymes pour la production de variantes d’un texte de demande de brevet de base. Le chapitre 1 sert d’introduction, en fournissant les connaissances linguistiques et techniques nécessaires à la recherche. Le chapitre 2 détaille la collecte et la préparation du corpus utilisé dans l’étude. Les chapitres 3 et 4 se concentrent sur l’annotation de l’arbre de dépendance au niveau des caractères chinois et décrivent le processus d’entraînement utilisé pour démarrer l’analyseur. Le chapitre 5 présente la construction et l’évaluation de la taxonomie technique, qui utilise le système de la Classification internationale des brevets. Enfin, à la fin de chapitre 5, la méthodologie de reconnaissance et de sélection des variations lexicales est démontrée.