Alignement lexical en corpus comparables : le cas des composés savants et des adjectifs relationnels
Auteur / Autrice : | Rima Harastani |
Direction : | Emmanuel Morin, Béatrice Daille |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, Traitement automatique du langage naturel |
Date : | Soutenance en 2014 |
Etablissement(s) : | Nantes |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et mathématiques (Nantes) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) |
autre partenaire : Université de Nantes. Faculté des sciences et des techniques | |
Jury : | Président / Présidente : Holger Schwenk |
Examinateurs / Examinatrices : Emmanuel Morin, Béatrice Daille, Holger Schwenk, Hervé Blanchon, Ulrich Heid | |
Rapporteurs / Rapporteuses : Hervé Blanchon, Ulrich Heid |
Mots clés
Mots clés contrôlés
Résumé
Notre travail concerne l’extraction automatique d’une liste de termes alignés avec leurs traductions (c’est-à-dire un lexique bilingue spécialisé) à partir d’un corpus comparable dans un domaine de spécialité. Un corpus comparable comprend des textes écrits dans deux langues différentes sans aucune relation de traduction entre eux mais dont les textes appartiennent à un même domaine. Les contributions de cette thèse portent sur l’amélioration de la qualité d’un lexique bilingue spécialisé extrait à partir d’un corpus comparable. Nous proposons des méthodes consacrées à la traduction de deux types de termes, qui ont des caractéristiques en commun entre plusieurs langues ou qui posent par leur nature des problèmes pour la traduction : les composés savants (termes contenant au moins une racine gréco-latine) et les termes composés d’un nom et un adjectif relationnel. Nous développons également une méthode, qui exploite des contextes riches en termes spécifiques au domaine du corpus, pour réordonner dans un lexique bilingue spécialisé des traductions candidates fournies pour un terme. Les expériences sont réalisées en utilisant deux corpus comparables spécialisés (dans les domaines du cancer du sein et des énergies renouvelables), sur les langues français, anglais, allemand et espagnol.