Contribution à l’analyse sémantique des textes arabes

Georges Lebboss

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR

Auteur / Autrice :	Georges Lebboss
Direction :	Gilles Bernard, Mohammad Hajjar
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 08/07/2016
Etablissement(s) :	Paris 8
Ecole(s) doctorale(s) :	École doctorale Sciences sociales (Saint-Denis, Seine-Saint-Denis ; 2000-....)
Partenaire(s) de recherche :	Equipe de recherche : Laboratoire d' informatique avancée de Saint-Denis
Jury :	Président / Présidente : Arab Ali Chérif
	Examinateurs / Examinatrices : Gilles Bernard, Mohammad Hajjar, Brigitte Grau, Frédéric Saubion, Abd El Salam Al Hajjar
	Rapporteurs / Rapporteuses : Younès Bennani

Mots clés

FR |

EN

Mots clés contrôlés

Arabe (langue)

Cartes auto-organisatrices

Intelligence artificielle

Corpus (recherche)

Sémantique

Mots clés libres

Relations sémantiques

Ressource sémantique arabe

Corpus arabe

Synsets

Prétraitement des données

Vectorisation des mots

Classification des mots

Carte de Kohonen SOM

Résumé

FR |

EN

La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Contribution à l’analyse sémantique des textes arabes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Contribution à l’analyse sémantique des textes arabes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses