Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiques - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2014

Comparability measures for the assisted construction of bilingual thematic comparable corpora

Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiques

Résumé

Thematic comparable corpora regroup texts from a same topic and written in several languages, highly similar but without mutual translations. Comparing with parallel corpora which regroup pairs of translations, comparable corpora have three advantages: firstly, they are rich and big resources jointly in volume and in covered period; secondly, comparable corpora provide original language and thematic resources. Finally, they are less expensive to develop than parallel corpus. With the considerable development of the WEB, an abundant raw material is exploitable for the construction of comparable corpora. However, the quality of comparable corpus is essential for their use in various fields such as automatic or assisted translation, bilingual terminology extraction, multilingual information retrieval, etc. The objective of this thesis work is to develop a methodological approach and a software toolkit to offer assistance in the construction of thematic bilingual comparable corpora from the WEB and on demand. We first introduce the general concept of comparability that maps two linguistic spaces and then, from a referenced quantitative comparability measure, we propose two variants that we qualify as thematic comparability measures. We evaluate these quantitative measures following a protocol based on the gradual degradation of a parallel corpus. Then, a new method to improve the co-clustering and co-classification of bilingual documents, as well as the alignment of comparable clusters, is developed. This approach merges native similarities defined in each language space with the similarity that is induced by a comparability measure. Finally, we propose an integrated approach, based on the above mentioned contributions, in order to assist the construction from the WEB, of thematic bilingual comparable corpora of ?good quality?. This procedure comprises a step of manual validation to ensure the quality of the comparable clusters alignment. Tuning the alignment comparability threshold, thematic comparable corpora with various comparability levels can be provided according to some specified requirements. The experiments that we have conducted on RSS feeds collected from major international newspapers appear relevant and promising.
Les corpus comparables thématiques regroupent des textes issus d¡¯un même thème et rédigés dans plusieurs langues, fortement similaires mais ne comprenant pas de traductions mutuelles. Par rapport aux corpus parallèles qui regroupent des paires de traductions, les corpus comparables présentent trois avantages: premièrement, ce sont des ressources riches et larges : en volume et en période couverte; deuxièmement, les corpus comparables fournissent des ressources linguistiques originales et thématiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles. Avec le développement considérable du WEB, une matière première très abondante est exploitable pour la construction de corpus comparables. En contre-partie, la qualité des corpus comparables est essentielle pour leur utilisation dans différents domaines tels que la traduction automatique ou assistée, l¡¯extraction de terminologies bilingues, la recherche d¡¯information multilingue, etc. L¡¯objectif de ce travail de thèse est de développer une approche méthodologique et un outillage informatique pour fournir une assistance à la construction des corpus comparables bilingues et thématiques de ? bonne qualité ?, à partir du WEB et à la demande. Nous présentons tout d¡¯abord la notion de mesure de comparabilité qui associe deux espaces linguistiques et, à partir d¡¯une mesure quantitative de comparabilité de référence, nous proposons deux variantes, qualifiées de comparabilité thématique, que nous évaluons suivant un protocole basé sur la dégradation progressive d¡¯un corpus parallèle. Nous proposons ensuite une nouvelle méthode pour améliorer le co-clustering et la co-classification de documents bilingues, ainsi que l¡¯alignement des clusters comparables. Celle-ci fusionne des similarités natives définies dans chacun des espaces linguistiques avec des similarités induites par la mesure de comparabilité utilisée. Enfin, nous proposons une démarche intégrée basée sur les contributions précédemment évoquées afin d¡¯assister la construction, à partir du WEB, de corpus comparables bilingues thématiques de qualité. Cette démarche comprend une étape de validation manuelle pour garantir la qualité de l¡¯alignement des clusters comparables. En jouant sur le seuil de comparabilité d¡¯alignement, différents corpus comparables associés à des niveaux de comparabilité variables peuvent être fournis en fonction des besoins spécifiés. Les expérimentations que nous avons menées sur des Flux RSS issus de grands quotidiens internationaux apparaissent pertinentes et prometteuses.
Fichier principal
Vignette du fichier
thesis.pdf (5.31 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00997837 , version 1 (02-06-2014)

Identifiants

  • HAL Id : tel-00997837 , version 1

Citer

Guiyao Ke. Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiques. Traitement du texte et du document. Université de Bretagne Sud, 2014. Français. ⟨NNT : ⟩. ⟨tel-00997837⟩
313 Consultations
816 Téléchargements

Partager

Gmail Facebook X LinkedIn More