Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné

Authoul Abdulhay

Thèse Année : 2012

Constitution of a semantic resource for the Arabic language from multilingual aligned corpora

Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné

(1)

Authoul Abdulhay

Fonction : Auteur

LInguistique et DIdactique des Langues Étrangères et Maternelles

Résumé

This study aims at the implementation and evaluation of techniques for extracting semantic relations from a multilingual aligned corpus. Firstly, our observations will focus on the semantic comparison of translational equivalents in multilingual aligned corpus. From these equivalences, we will try to extract "cliques", which ara maximum complete related sub-graphs, where all units are interrelated because of a probable semantic intersection. These cliques have the advantage of giving information on both the synonymy and polysemy of units, and providing a form of semantic disambiguation. Secondly, we attempt to link these cliques with a semantic lexicon (like WordNet) in order to assess the possibility of recovering, for the Arabic units, a semantic relationships already defined for English, French or Spanish units. These relations would automatically build a semantic resource which would be useful for different applications of NLP, such as Question Answering systems, machine translation, alignment systems, Information Retrieval…etc.

Cette thèse vise à la mise en œuvre et à l'évaluation de techniques d'extraction de relations sémantiques à partir d'un corpus multilingue aligné. Ces relations seront extraites par transitivité de l'équivalence traductionnelle, deux lexèmes possédant les mêmes équivalents dans une langue cible étant susceptibles de partager un même sens. D'abord, nos observations porteront sur la comparaison sémantique d'équivalents traductionnels dans des corpus multilingues alignés. A partir des équivalences, nous tâcherons d'extraire des "cliques", ou sous-graphes maximaux complets connexes, dont toutes les unités sont en interrelation, du fait d'une probable intersection sémantique. Ces cliques présentent l'intérêt de renseigner à la fois sur la synonymie et la polysémie des unités, et d'apporter une forme de désambiguïsation sémantique. Elles seront créées à partir de l'extraction automatique de correspondances lexicales, basée sur l'observation des occurrences et cooccurrences en corpus. Le recours à des techniques de lemmatisation sera envisagé. Ensuite nous tâcherons de relier ces cliques avec un lexique sémantique (de type Wordnet) afin d'évaluer la possibilité de récupérer pour les unités arabes des relations sémantiques définies pour des unités en anglais ou en français. Ces relations permettraient de construire automatiquement un réseau utile pour certaines applications de traitement de la langue arabe, comme les moteurs de question-réponse, la traduction automatique, les systèmes d'alignement, la recherche d'information, etc.

Mots clés

Semantic network Cliques Alignment Parallel corpora Wordnet

Réseaux sémantiques Cliques Alignement Corpus parallèle Wordnet

Domaines

Linguistique

Fichier principal

18576_ABDULHAY_2012_archivage.pdf (1.84 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-00836764

Soumis le : vendredi 21 juin 2013-14:44:10

Dernière modification le : jeudi 4 avril 2024-21:28:26

Archivage à long terme le : dimanche 22 septembre 2013-04:09:03

Dates et versions

tel-00836764 , version 1 (21-06-2013)

Identifiants

HAL Id : tel-00836764 , version 1

Citer

Authoul Abdulhay. Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné. Linguistique. Université de Grenoble, 2012. Français. ⟨NNT : 2012GRENL003⟩. ⟨tel-00836764⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA STAR LIDILEM

730 Consultations

3660 Téléchargements

Constitution of a semantic resource for the Arabic language from multilingual aligned corpora

Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager