Traitement automatique des termes composés : segmentation, traduction et variation

Elizaveta Loginova Clouet

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Traitement automatique des termes composés : segmentation, traduction et variation

FR |

EN

Auteur / Autrice :	Elizaveta Loginova Clouet
Direction :	Béatrice Daille
Type :	Thèse de doctorat
Discipline(s) :	Informatique, Traitement Automatique du Langage Naturel
Date :	Soutenance en 2014
Etablissement(s) :	Nantes
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
	Autre partenaire : Université de Nantes. Faculté des sciences et des techniques
Jury :	Président / Présidente : Natalie Kübler
	Examinateurs / Examinatrices : Natalie Kübler, Nabil Hathout
	Rapporteurs / Rapporteuses : Nabil Hathout

Mots clés

FR

Mots clés contrôlés

Terminologie

Mots composés

Traitement automatique du langage naturel

Mots clés libres

Composition morphologique

Segmentation de mots composés

Traduction compositionnelle

Variation terminologique

Lexique terminologique bilingue

Résumé

FR |

EN

Le nombre de termes spécialisés croît constamment dans les documents, à un rythme difficile à suivre pour les organismes de normalisation de la terminologie. Les méthodes de construction des lexiques terminologiques bilingues à partir de corpus de textes proposent des solutions. Notre thèse s’inscrit dans cette problématique : la construction de lexiques bilingues à partir de corpus comparables. Les termes composés (les termes contenant plusieurs radicaux, mais un seul mot graphique) constituent un défi pour les applications du traitement automatique des langues. Étant donné leur forme graphique, ils sont souvent traités comme des termes simples, ce qui empêche de capturer leur complexité sémantique. Notre participation à une évaluation d’extraction automatique de termes a permis de vérifier notre hypothèse : les termes composés nécessitent un traitement particulier dans un contexte multilingue. Nous avons proposé une méthode de reconnaissance et de segmentation des termes composés, combinant des caractéristiques dépendantes et indépendantes de la langue. Elle permet d’obtenir des résultats comparables à ceux des méthodes de l’état de l’art, tout en étant validée sur un échantillon de familles de langues varié (germanique, slave, romane) et adaptable au domaine de spécialité (vérifiée sur deux domaines : l’énergie éolienne et le cancer du sein). Nous avons exploité les segmentations produites pour la traduction compositionnelle des termes et pour la détection des variantes syntagmatiques des termes composés dans les textes spécialisés. Ces deux expériences illustrent l’utilité de la segmentation pour la construction des lexiques terminologiques bilingues.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Traitement automatique des termes composés : segmentation, traduction et variation

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Traitement automatique des termes composés : segmentation, traduction et variation

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses