Thèse soutenue

Traitement automatique du dialecte tunisien à l'aide d'outils et de ressources de l'arabe standard : application à l'étiquetage morphosyntaxique

FR  |  
EN
Auteur / Autrice : Ahmed Hamdi
Direction : Alexis NasrNùria Gala
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/12/2015
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole doctorale Cognition, Langage et Education (Aix-en-Provence ; 2000-....)
Jury : Président / Présidente : Nabil Hathout
Examinateurs / Examinatrices : Alexis Nasr, Nùria Gala, Nabil Hathout, Imed Zitouni
Rapporteurs / Rapporteuses : Imed Zitouni

Résumé

FR  |  
EN

Le développement d’outils de traitement automatique pour les dialectes de l’arabe se heurte à l’absence de ressources pour ces derniers. Comme conséquence d’une situation de diglossie, il existe une variante de l’arabe, l’arabe moderne standard, pour laquelle de nombreuses ressources ont été développées et ont permis de construire des outils de traitement automatique de la langue. Étant donné la proximité des dialectes de l’arabe, avec l’arabe moderne standard, une voie consiste à réaliser une conversion surfacique du dialecte vers l’arabe mo- derne standard afin de pouvoir utiliser les outils existants pour l’arabe standard. Dans ce travail, nous nous intéressons particulièrement au traitement du dialecte tunisien. Nous proposons un système de conversion du tunisien vers une forme approximative de l’arabe standard pour laquelle l’application des outils conçus pour ce dernier permet d’obtenir de bons résultats. Afin de valider cette approche, nous avons eu recours à un étiqueteur morphosyntaxique conçu pour l’étiquetage de l’arabe standard. Ce dernier permet d’assigner des étiquettes morphosyntaxiques à la sortie de notre système de conver- sion. Ces étiquettes sont finalement projetées sur le tunisien. Notre système atteint une précision de 89% suite à la conversion qui repré- sente une augmentation absolue de ∼20% par rapport à l’étiquetage d’avant la conversion.