Thèse soutenue

Alignement lexical en corpus comparables : le cas des composés savants et des adjectifs relationnels

FR  |  
EN
Auteur / Autrice : Rima Harastani
Direction : Emmanuel MorinBéatrice Daille
Type : Thèse de doctorat
Discipline(s) : Informatique, Traitement automatique du langage naturel
Date : Soutenance en 2014
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
autre partenaire : Université de Nantes. Faculté des sciences et des techniques
Jury : Président / Présidente : Holger Schwenk
Examinateurs / Examinatrices : Emmanuel Morin, Béatrice Daille, Holger Schwenk, Hervé Blanchon, Ulrich Heid
Rapporteurs / Rapporteuses : Hervé Blanchon, Ulrich Heid

Résumé

FR  |  
EN

Notre travail concerne l’extraction automatique d’une liste de termes alignés avec leurs traductions (c’est-à-dire un lexique bilingue spécialisé) à partir d’un corpus comparable dans un domaine de spécialité. Un corpus comparable comprend des textes écrits dans deux langues différentes sans aucune relation de traduction entre eux mais dont les textes appartiennent à un même domaine. Les contributions de cette thèse portent sur l’amélioration de la qualité d’un lexique bilingue spécialisé extrait à partir d’un corpus comparable. Nous proposons des méthodes consacrées à la traduction de deux types de termes, qui ont des caractéristiques en commun entre plusieurs langues ou qui posent par leur nature des problèmes pour la traduction : les composés savants (termes contenant au moins une racine gréco-latine) et les termes composés d’un nom et un adjectif relationnel. Nous développons également une méthode, qui exploite des contextes riches en termes spécifiques au domaine du corpus, pour réordonner dans un lexique bilingue spécialisé des traductions candidates fournies pour un terme. Les expériences sont réalisées en utilisant deux corpus comparables spécialisés (dans les domaines du cancer du sein et des énergies renouvelables), sur les langues français, anglais, allemand et espagnol.