Thèse soutenue

Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle

FR  |  
EN
Auteur / Autrice : Janan Ben Salamah
Direction : Jean-Pierre Desclès
Type : Thèse de doctorat
Discipline(s) : Mathématiques, informatique et application aux sciences de l'homme
Date : Soutenance le 28/10/2017
Etablissement(s) : Paris 4
Ecole(s) doctorale(s) : École doctorale Concepts et langages (Paris ; 2000-....)
Partenaire(s) de recherche : Equipe de recherche : Langues, logiques, informatique, cognition (Paris)
Jury : Président / Présidente : Joseph Dichy
Examinateurs / Examinatrices : Mohammed Al-Shatti, Rim Faiz, Omar Larouk

Résumé

FR  |  
EN

Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale.