Thèse soutenue

Extraction en langue chinoise d'actions spatiotemporalisées réalisées par des personnes ou des organismes

FR  |  
EN
Auteur / Autrice : Zhen Wang
Direction : Pierre Zweigenbaum
Type : Thèse de doctorat
Discipline(s) : Traitement automatique des langues
Date : Soutenance le 09/06/2016
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Langues, littératures et sociétés du monde (1997-... ; Paris)
Partenaire(s) de recherche : Laboratoire : Équipe de Recherche en Textes- Informatique- Multilinguisme / ERTIM
établissement de préparation : Institut national des langues et civilisations orientales (Paris ; 1971-....)
Jury : Examinateurs / Examinatrices : Pierre Zweigenbaum, Denis Maurel, Stéphane Ferrari, Christine Lamarre, Damien Nouvel, Christian Fluhr
Rapporteur / Rapporteuse : Denis Maurel, Stéphane Ferrari

Résumé

FR  |  
EN

La thèse a deux objectifs : le premier est de développer un analyseur qui permet d'analyser automatiquement des sources textuelles en chinois simplifié afin de segmenter les textes en mots et de les étiqueter par catégories grammaticales, ainsi que de construire les relations syntaxiques entre les mots. Le deuxième est d'extraire des informations autour des entités et des actions qui nous intéressent à partir des textes analysés. Afin d'atteindre ces deux objectifs, nous avons traité principalement les problématiques suivantes : les ambiguïtés de segmentation, la catégorisation ; le traitement des mots inconnus dans les textes chinois ; l'ambiguïté de l'analyse syntaxique ; la reconnaissance et le typage des entités nommées. Le texte d'entrée est traité phrase par phrase. L'analyseur commence par un traitement typographique au sein des phrases afin d'identifier les écritures latines et les chiffres. Ensuite, nous segmentons la phrase en mots à l'aide de dictionnaires. Grâce aux règles linguistiques, nous créons des hypothèses de noms propres, changeons les poids des catégories ou des mots selon leur contextes gauches ou/et droits. Un modèle de langue n-gramme élaboré à partir d'un corpus d'apprentissage permet de sélectionner le meilleur résultat de segmentation et de catégorisation. Une analyse en dépendance est utilisée pour marquer les relations entre les mots. Nous effectuons une première identification d'entités nommées à la fin de l'analyse syntaxique. Ceci permet d'identifier les entités nommées en unité ou en groupe nominal et également de leur attribuer un type. Ces entités nommées sont ensuite utilisées dans l'extraction. Les règles d'extraction permettent de valider ou de changer les types des entités nommées. L'extraction des connaissances est composée des deux étapes : extraire et annoter automatiquement des contenus à partir des textes analysés ; vérifier les contenus extraits et résoudre la cohérence à travers une ontologie.