Extraction en langue chinoise d'actions spatiotemporalisées réalisées par des personnes ou des organismes
Auteur / Autrice : | Zhen Wang |
Direction : | Pierre Zweigenbaum |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement automatique des langues |
Date : | Soutenance le 09/06/2016 |
Etablissement(s) : | Sorbonne Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Langues, littératures et sociétés du monde (1997-... ; Paris) |
Partenaire(s) de recherche : | Laboratoire : Équipe de Recherche en Textes- Informatique- Multilinguisme / ERTIM |
établissement de préparation : Institut national des langues et civilisations orientales (Paris ; 1971-....) | |
Jury : | Examinateurs / Examinatrices : Pierre Zweigenbaum, Denis Maurel, Stéphane Ferrari, Christine Lamarre, Damien Nouvel, Christian Fluhr |
Rapporteur / Rapporteuse : Denis Maurel, Stéphane Ferrari |
Mots clés
Mots clés contrôlés
Résumé
La thèse a deux objectifs : le premier est de développer un analyseur qui permet d'analyser automatiquement des sources textuelles en chinois simplifié afin de segmenter les textes en mots et de les étiqueter par catégories grammaticales, ainsi que de construire les relations syntaxiques entre les mots. Le deuxième est d'extraire des informations autour des entités et des actions qui nous intéressent à partir des textes analysés. Afin d'atteindre ces deux objectifs, nous avons traité principalement les problématiques suivantes : les ambiguïtés de segmentation, la catégorisation ; le traitement des mots inconnus dans les textes chinois ; l'ambiguïté de l'analyse syntaxique ; la reconnaissance et le typage des entités nommées. Le texte d'entrée est traité phrase par phrase. L'analyseur commence par un traitement typographique au sein des phrases afin d'identifier les écritures latines et les chiffres. Ensuite, nous segmentons la phrase en mots à l'aide de dictionnaires. Grâce aux règles linguistiques, nous créons des hypothèses de noms propres, changeons les poids des catégories ou des mots selon leur contextes gauches ou/et droits. Un modèle de langue n-gramme élaboré à partir d'un corpus d'apprentissage permet de sélectionner le meilleur résultat de segmentation et de catégorisation. Une analyse en dépendance est utilisée pour marquer les relations entre les mots. Nous effectuons une première identification d'entités nommées à la fin de l'analyse syntaxique. Ceci permet d'identifier les entités nommées en unité ou en groupe nominal et également de leur attribuer un type. Ces entités nommées sont ensuite utilisées dans l'extraction. Les règles d'extraction permettent de valider ou de changer les types des entités nommées. L'extraction des connaissances est composée des deux étapes : extraire et annoter automatiquement des contenus à partir des textes analysés ; vérifier les contenus extraits et résoudre la cohérence à travers une ontologie.