Thèse soutenue

Analyse linguistique et extraction automatique de relations sémantiques des textes en arabe

FR  |  
EN
Auteur / Autrice : Youcef Ihab Morsi
Direction : Iana Atanassova
Type : Thèse de doctorat
Discipline(s) : Sciences du Langage. Traitement Automatique des Langues
Date : Soutenance le 25/09/2020
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....)
Partenaire(s) de recherche : établissement de préparation : Université de Franche-Comté (1971-2024)
Laboratoire : Centre de recherches interdisciplinaires et transculturelles (Besançon)
Jury : Président / Présidente : Mohamed Hassoun
Examinateurs / Examinatrices : Iana Atanassova, Mohamed Hassoun, Ismaïl Biskri, Patrice Pognan, Bilal Shafei
Rapporteur / Rapporteuse : Mohamed Hassoun, Ismaïl Biskri

Résumé

FR  |  
EN

Cette recherche porte sur le développement d’un outil de traitement automatique de la langue arabe standard moderne, au niveau morphologique et sémantique, avec comme objectif final l’extraction d’information dans le domaine de l’innovation technologique en entreprise. En ce qui concerne l’analyse morphologique, notre outil comprend plusieurs traitements successifs qui permettent d’étiqueter et de désambiguïser les occurrences dans les textes : une couche morphologique (Gibran 1.0), qui s’appuie sur les schèmes arabes comme traits distinctifs ; une couche contextuelle (Gibran 2.0), qui fait appel à des règles contextuelles ; et une troisième couche (Gibran 3.0) qui fait appel à un modèle d’apprentissage automatique. Notre méthodologie est évaluée sur le corpus annoté Arabic-PADT UD treebank. Les évaluations obtiennent une F-mesure de 0,92 et 0,90 pour les analyses morphologiques. Ces expérimentations montrent, entre autres, la possibilité d’améliorer une telle ressource par les analyses linguistiques. Cette approche nous a permis de développer un prototype d’extraction d’information autour de l’innovation technologique pour la langue arabe. Il s’appuie sur l’analyse morphologique et des patrons syntaxico-sémantiques. Cette thèse s’inscrit dans un parcours docteur-entrepreneur.