Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle

Janan Ben Salamah

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle

FR |

EN

Auteur / Autrice :	Janan Ben Salamah
Direction :	Jean-Pierre Desclès
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques, informatique et application aux sciences de l'homme
Date :	Soutenance le 28/10/2017
Etablissement(s) :	Paris 4
Ecole(s) doctorale(s) :	École doctorale Concepts et langages (Paris ; 2000-....)
Partenaire(s) de recherche :	Equipe de recherche : Langues, logiques, informatique, cognition (Paris)
Jury :	Président / Présidente : Joseph Dichy
	Examinateurs / Examinatrices : Mohammed Al-Shatti, Rim Faiz, Omar Larouk

Mots clés

FR |

EN

Mots clés contrôlés

Linguistique -- Informatique

Français (langue)

Sémantique

Arabe (langue)

Exploration de données

Traitement automatique du langage naturel

Mots clés libres

Extraction de connaissance

Extraction des événements

Extraction des référentiels temporels

Annotation d‟information

Cartes Sémantiques

Exploration Contextuelle

Linguistico-Computationnelle

Résumé

FR |

EN

Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses