Thèse soutenue

Contribution à l’analyse sémantique des textes arabes

FR
Auteur / Autrice : Georges Lebboss
Direction : Gilles BernardMohammad Hajjar
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/07/2016
Etablissement(s) : Paris 8
Ecole(s) doctorale(s) : École doctorale Sciences sociales (Saint-Denis, Seine-Saint-Denis ; 2000-....)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire d' informatique avancée de Saint-Denis
Jury : Président / Présidente : Arab Ali Chérif
Examinateurs / Examinatrices : Gilles Bernard, Mohammad Hajjar, Brigitte Grau, Frédéric Saubion, Abd El Salam Al Hajjar
Rapporteurs / Rapporteuses : Younès Bennani

Résumé

FR  |  
EN

La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet