Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
Auteur / Autrice : | Janan Ben Salamah |
Direction : | Jean-Pierre Desclès |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques, informatique et application aux sciences de l'homme |
Date : | Soutenance le 28/10/2017 |
Etablissement(s) : | Paris 4 |
Ecole(s) doctorale(s) : | École doctorale Concepts et langages (Paris ; 2000-....) |
Partenaire(s) de recherche : | Equipe de recherche : Langues, logiques, informatique, cognition (Paris) |
Jury : | Président / Présidente : Joseph Dichy |
Examinateurs / Examinatrices : Mohammed Al-Shatti, Rim Faiz, Omar Larouk |
Mots clés
Mots clés contrôlés
Résumé
Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale.