Thèse soutenue

Construction semi-automatique d'une grammaire d'arbres adjoints pour l'analyse syntaxico-sémantique de l'arabe

FR  |  
EN
Auteur / Autrice : Cherifa Ben Khelil
Direction : Denys DuchierChiraz Ben Othmane Zribi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/06/2019
Etablissement(s) : Orléans en cotutelle avec Université de la Manouba (Tunisie)
Ecole(s) doctorale(s) : École doctorale Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes (Centre-Val de Loire ; 2012-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique fondamentale d'Orléans (Orléans ; 1987-....) - Laboratoire RIADI (La Manouba)
Jury : Président / Présidente : Claire Gardent
Examinateurs / Examinatrices : Claire Gardent, Laura Kallmeyer, Kais Haddar, Yannick Parmentier
Rapporteurs / Rapporteuses : Laura Kallmeyer, Kais Haddar

Résumé

FR  |  
EN

Cette thèse traite de la description formelle et du développement d’une grammaire électronique de la langue arabe. Ce travail est un prérequis à la création d’outils de traitement automatique de l’arabe. Cette langue présente de nombreux défis pour un traitement automatique. En effet l’ordre de mots en arabe est relativement libre, la morphologie y est riche et les diacritiques sont omis dans les textes écrits. Bien que plusieurs travaux de recherche aient abordé certaines de ces problématiques, les ressources électroniques utiles pour le traitement de l’arabe demeurent relativement rares ou encore peu disponibles. Dans ce travail de thèse, nous nous sommes intéressés à la représentation de la syntaxe (ordre des mots) et du sens de l’arabe standard moderne. Comme système formel de représentation de la langue, nous avons choisi le formalisme des grammaires d’arbres adjoints (Tree Adjoining Grammar). Nous avons ainsi proposé une grammaire d’arbres adjoints électronique de l’arabe nommée «ArabTAG V2.0». Cette ressource réutilise en partie la modélisation préexistante dans la grammaire définie manuellement «ArabTAG» et l’intègre à une représentation abstraite appelée méta-grammaire. L’expert linguiste peut ainsi décrire la syntaxe et sémantique de la langue avec des outils d’abstraction facilitant la maintenance et l’extension de la grammaire. La grammaire ainsi décrite compte 1074 règles syntaxiques (non lexicalisées) et 27 cadres sémantiques (relations prédicatives). Cette ressource a été évaluée en analysant un corpus issu d’extraits d’un manuel scolaire d’apprentissage de l’arabe.