Thèse soutenue

Méthodes d'acquisition terminologique en arabe : Application au domaine médical

FR  |  
EN
Auteur / Autrice : Wafa Neifar
Direction : Pierre ZweigenbaumLamia Hadrich Belguith
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 18/03/2019
Etablissement(s) : Université Paris-Saclay (ComUE) en cotutelle avec Université de Sfax (Tunisie). Faculté des Sciences économiques et de gestion
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020) - Multimedia, InfoRmation Systems and Advanced Computing Laboratory (Sfax, Tunisie)
Jury : Président / Présidente : Nadia Essoussi
Examinateurs / Examinatrices : Pierre Zweigenbaum, Lamia Hadrich Belguith, Nadia Essoussi, Béatrice Daille, Frédéric Béchet, Olivier Ferret
Rapporteurs / Rapporteuses : Béatrice Daille, Frédéric Béchet

Résumé

FR  |  
EN

L'objectif de cette thèse est de lever les verrous que constituent le manque de disponibilité de ressources ou d'outils TAL pour la langue arabe dans les domaines de spécialité en proposant des méthodes permettant l'extraction de termes à partir de textes en arabe standard moderne. Dans ce contexte, nous avons d'abord construit un corpus parallèle anglais-arabe dans un domaine de spécialité. Il s'agit d'un ensemble de textes médicaux produits par la bibliothèque nationale de médecine américaine (NLM). Par la suite, nous avons proposé des méthodes d'acquisition terminologique, permettant d'extraire des termes ou d'acquérir des relations entre ces termes, pour la langue arabe en se basant sur: i)adaptation d'un extracteur terminologique existant pour la languefrançaise ou anglaise, ii) l'exploitation de la translittération des termes anglais en caractères arabes et iii) l'application de la la notion de transfert translingue. Appliqué au niveau terminologique, le transfert consiste à mettre en œuvre un processus d'extraction de termes ou d'acquisition de relations entre termes sur des textes d'une langue source (ici, le français ou l'anglais) puis à transférer les informations extraites sur des textes d'une langue cible (ici, l’arabe standard moderne) pour ainsi identifier le même type d'informations terminologiques. Nous avons évalué les listes de termes monolingues et bilingues obtenues lors des différentes expériences que nous avons réalisées, suivant une méthode transparente, directe et semi-automatique: les termes candidats extraits sont confrontés à une terminologie de référence avant d'être vérifiés manuellement. Cette évaluation suit un protocole que nous avons proposé.