Thèse soutenue

La Conception et la réalisation d'un concordancier électronique pour l'arabe

FR  |  
EN
Auteur / Autrice : Ramzi Abbes
Direction : Mohamed HassounJoseph Dichy
Type : Thèse de doctorat
Discipline(s) : Science de l'information
Date : Soutenance en 2004
Etablissement(s) : Lyon, INSA

Mots clés

FR

Résumé

FR  |  
EN

Dans cette thèse nous abordons la réalisation des concordances électroniques de l'arabe, du point de vue du traitement automatique des langue (TAL). L'organisation du texte en listes de mots, de contextes et de fréquences suscite l'intérêt des chercheurs en sciences de l'information, en indexation, en lexicographie, en didactique, en dictionnairique, en stylistique Les méthodes classiques de parcours de surfaces (KWIC) utilisés pour la réalisation des concordances ne donnent pas de résultats satisfaisants sur l'arabe. Notre langue sémitique est hautement flexionnelle, agglutinante et non-vocalisée, elle contient des formes graphiques complexes muettes aux recherches de surfaces. L'analyse morpho-syntaxique (AM) s'est imposée pour la distinction des mots dans leurs contextes et pour offrir de nouveaux critères pour l'organisation et l'exploration des index. Mais avant, nous devons définir un lexique pour le TAL de l'arabe. La dissymétrie entre la génération et l'analyse du mot arabe exclut l'utilisation directe des dictionnaires traditionnels et impose d'associer à chaque entrée des spécificateurs morpho-syntaxiques. Cette association a été réalisé dans DIINAR. 1 " DIctionnaire INformatisé de l'Arabe version 1 ", qui s'appuie sur les analyseurs et les générateurs dévelopés grâce au modèle SAMIA " Synthèse et Analyse Morphologique Informatisées de l'Arabe " notamment notre analyseur AraMorph. Avec l'ambigui͏̈té née dans la langue arabe, une concordance automatique doit répondre à plusieurs heuristiques pour réduire la multiplicité des solutions et doit rester interactive et assister l'inévitable intervention experte. Cette thèse comporte une collection des ressources originales pour le TAL de l'arabe. Les listes des particules arabes et leurs matrices de compatibilités, une liste de fréquence de mots et de racines établies pour une recherche en psycholinguistique et une application directe du concordancier à une étude de corpus journalistique contemporain.