Analyse linguistique et extraction automatique de relations sémantiques des textes en arabe
Auteur / Autrice : | Youcef Ihab Morsi |
Direction : | Iana Atanassova |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du Langage. Traitement Automatique des Langues |
Date : | Soutenance le 25/09/2020 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....) |
Partenaire(s) de recherche : | établissement de préparation : Université de Franche-Comté (1971-2024) |
Laboratoire : Centre de recherches interdisciplinaires et transculturelles (Besançon) | |
Jury : | Président / Présidente : Mohamed Hassoun |
Examinateurs / Examinatrices : Iana Atanassova, Mohamed Hassoun, Ismaïl Biskri, Patrice Pognan, Bilal Shafei | |
Rapporteur / Rapporteuse : Mohamed Hassoun, Ismaïl Biskri |
Mots clés
Mots clés contrôlés
Résumé
Cette recherche porte sur le développement d’un outil de traitement automatique de la langue arabe standard moderne, au niveau morphologique et sémantique, avec comme objectif final l’extraction d’information dans le domaine de l’innovation technologique en entreprise. En ce qui concerne l’analyse morphologique, notre outil comprend plusieurs traitements successifs qui permettent d’étiqueter et de désambiguïser les occurrences dans les textes : une couche morphologique (Gibran 1.0), qui s’appuie sur les schèmes arabes comme traits distinctifs ; une couche contextuelle (Gibran 2.0), qui fait appel à des règles contextuelles ; et une troisième couche (Gibran 3.0) qui fait appel à un modèle d’apprentissage automatique. Notre méthodologie est évaluée sur le corpus annoté Arabic-PADT UD treebank. Les évaluations obtiennent une F-mesure de 0,92 et 0,90 pour les analyses morphologiques. Ces expérimentations montrent, entre autres, la possibilité d’améliorer une telle ressource par les analyses linguistiques. Cette approche nous a permis de développer un prototype d’extraction d’information autour de l’innovation technologique pour la langue arabe. Il s’appuie sur l’analyse morphologique et des patrons syntaxico-sémantiques. Cette thèse s’inscrit dans un parcours docteur-entrepreneur.