Contribution à l’analyse sémantique des textes arabes
Auteur / Autrice : | Georges Lebboss |
Direction : | Gilles Bernard, Mohammad Hajjar |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 08/07/2016 |
Etablissement(s) : | Paris 8 |
Ecole(s) doctorale(s) : | École doctorale Sciences sociales (Saint-Denis, Seine-Saint-Denis ; 2000-....) |
Partenaire(s) de recherche : | Equipe de recherche : Laboratoire d' informatique avancée de Saint-Denis |
Jury : | Président / Présidente : Arab Ali Chérif |
Examinateurs / Examinatrices : Gilles Bernard, Mohammad Hajjar, Brigitte Grau, Frédéric Saubion, Abd El Salam Al Hajjar | |
Rapporteurs / Rapporteuses : Younès Bennani |
Mots clés
Résumé
La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet