Thèse soutenue

Traitement automatique des termes composés : segmentation, traduction et variation

FR  |  
EN
Auteur / Autrice : Elizaveta Loginova Clouet
Direction : Béatrice Daille
Type : Thèse de doctorat
Discipline(s) : Informatique, Traitement Automatique du Langage Naturel
Date : Soutenance en 2014
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
Autre partenaire : Université de Nantes. Faculté des sciences et des techniques
Jury : Président / Présidente : Natalie Kübler
Examinateurs / Examinatrices : Natalie Kübler, Nabil Hathout
Rapporteur / Rapporteuse : Nabil Hathout

Résumé

FR  |  
EN

Le nombre de termes spécialisés croît constamment dans les documents, à un rythme difficile à suivre pour les organismes de normalisation de la terminologie. Les méthodes de construction des lexiques terminologiques bilingues à partir de corpus de textes proposent des solutions. Notre thèse s’inscrit dans cette problématique : la construction de lexiques bilingues à partir de corpus comparables. Les termes composés (les termes contenant plusieurs radicaux, mais un seul mot graphique) constituent un défi pour les applications du traitement automatique des langues. Étant donné leur forme graphique, ils sont souvent traités comme des termes simples, ce qui empêche de capturer leur complexité sémantique. Notre participation à une évaluation d’extraction automatique de termes a permis de vérifier notre hypothèse : les termes composés nécessitent un traitement particulier dans un contexte multilingue. Nous avons proposé une méthode de reconnaissance et de segmentation des termes composés, combinant des caractéristiques dépendantes et indépendantes de la langue. Elle permet d’obtenir des résultats comparables à ceux des méthodes de l’état de l’art, tout en étant validée sur un échantillon de familles de langues varié (germanique, slave, romane) et adaptable au domaine de spécialité (vérifiée sur deux domaines : l’énergie éolienne et le cancer du sein). Nous avons exploité les segmentations produites pour la traduction compositionnelle des termes et pour la détection des variantes syntagmatiques des termes composés dans les textes spécialisés. Ces deux expériences illustrent l’utilité de la segmentation pour la construction des lexiques terminologiques bilingues.