Construction semi-automatique d'une grammaire d'arbres adjoints pour l'analyse syntaxico-sémantique de l'arabe
Auteur / Autrice : | Cherifa Ben Khelil |
Direction : | Denys Duchier, Chiraz Ben Othmane Zribi |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 14/06/2019 |
Etablissement(s) : | Orléans en cotutelle avec Université de la Manouba (Tunisie) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes (Centre-Val de Loire ; 2012-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique fondamentale d'Orléans (Orléans ; 1987-....) - Laboratoire RIADI (La Manouba) |
Jury : | Président / Présidente : Claire Gardent |
Examinateurs / Examinatrices : Claire Gardent, Laura Kallmeyer, Kais Haddar, Yannick Parmentier | |
Rapporteurs / Rapporteuses : Laura Kallmeyer, Kais Haddar |
Mots clés
Résumé
Cette thèse traite de la description formelle et du développement d’une grammaire électronique de la langue arabe. Ce travail est un prérequis à la création d’outils de traitement automatique de l’arabe. Cette langue présente de nombreux défis pour un traitement automatique. En effet l’ordre de mots en arabe est relativement libre, la morphologie y est riche et les diacritiques sont omis dans les textes écrits. Bien que plusieurs travaux de recherche aient abordé certaines de ces problématiques, les ressources électroniques utiles pour le traitement de l’arabe demeurent relativement rares ou encore peu disponibles. Dans ce travail de thèse, nous nous sommes intéressés à la représentation de la syntaxe (ordre des mots) et du sens de l’arabe standard moderne. Comme système formel de représentation de la langue, nous avons choisi le formalisme des grammaires d’arbres adjoints (Tree Adjoining Grammar). Nous avons ainsi proposé une grammaire d’arbres adjoints électronique de l’arabe nommée «ArabTAG V2.0». Cette ressource réutilise en partie la modélisation préexistante dans la grammaire définie manuellement «ArabTAG» et l’intègre à une représentation abstraite appelée méta-grammaire. L’expert linguiste peut ainsi décrire la syntaxe et sémantique de la langue avec des outils d’abstraction facilitant la maintenance et l’extension de la grammaire. La grammaire ainsi décrite compte 1074 règles syntaxiques (non lexicalisées) et 27 cadres sémantiques (relations prédicatives). Cette ressource a été évaluée en analysant un corpus issu d’extraits d’un manuel scolaire d’apprentissage de l’arabe.