Définitions, élaboration et exploitation d'un corpus parallèle bidirectionnel français-tchèque tchèque français

par Martin Svášek

Thèse de doctorat en Études tchèques. Traitement automatique des langues

Sous la direction de Patrice Pognan et de Vladimír Petkevič.

Soutenue en 2007

à Paris, INALCO en cotutelle avec l'Univerzita Karlova v Praze .


  • Résumé

    D’abord, nous introduisons le concept de corpus parallèle. Fratchèque est un corpus parallèle de ressources écrites dont les textes en français et en tchèque proviennent de la littérature écrite après 1945. Il ne contient pas de balises XML, le logiciel ParaConc utilisé pour le traitement du corpus n’en a pas besoin. L’élaboration du corpus est décrite d’une façon détaillée en suivant toutes les démarches et tout le paramétrage des logiciels utilisés. Elle commence avec le logiciel de reconnaissance optique de caractères FineReader et après le contrôle de la qualité des textes numérisés sous MS Word 2002 on procède à la constitution d’un corpus parallèle géré par ParaConc. La partie linguistique de la thèse s’appuie sur le corpus parallèle réalisé. Elle aborde un phénomène connu en tchèque sous le terme částice qui n’a d’équivalent univoque en français. Les termes le plus souvent liés en français à la question sont mots du discours et particules énonciatives. Selon les descriptions existantes, il y a une relation étroite entre ces mots et le discours. Cette constatation est démontrée pour deux částice – vždyt̕, přece et leurs variantes – sur les grands corpus tchèques (Analyse A) et Fratchèque (Analyse B). L’étude continue avec l’analyse systématique des types variés d’usage de vždyt̕, přece dans le but de proposer une description lexicographique pour un dictionnaire bilingue tchèque-français. Quelques exercices basés sur les résultats de l’étude montrent comment utiliser le corpus bilingue dans la didactique des langues. Enfin, on discute quelques questions qui concernent la possibilité d’évaluer automatiquement la qualité de traductions liées à la présence de částice


  • Résumé

    At the beginning the concept of a parallel corpus is defined. French and Czech texts forming the parallel Fratchèque corpus come from literature; only texts after the year 1945 have been selected. Fratchèque is not marked up explicitly by XML tags because the tagging is not necessary for the proper functioning of the corpus manager ParaConc. The building-up of the corpus is thoroughly described following all steps and settings of the software used. The process starts with the optical character recognition program FineReader and, after checking the accuracy of numerical texts by using MS Word 2002, it goes on building up a corpus managed by ParaConc. The linguistic investigations of the thesis rely primarily on the realization of a parallel corpus. The main purpose is to tackle a phenomenon that is known in Czech as částice but has no direct equivalent in French. The most frequent terms used in the French approach are mots du discours and particules énonciatives. The existing descriptions suggest a close relationship between these words and the discourse. It is demonstrated on two Czech částice - přece, vždyt̕ and their variants - using huge Czech corpora (Analysis A) and Fratchèque (Analysis B). The study continues analysing systematically all kind of usage of vždyt̕, přece in order to present lexicographical description for a bilingual Czech-French dictionary. Through some exercices based on the results of the linguistic analysis it is shown how to use the bilingual corpus in teaching foreign languages. Finally, some issues concerning automatic evaluation of translation quality are discussed taking into account the work with částice

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (231 f.)
  • Annexes : Bibliogr. f. 200-207. Annexes

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque universitaire des langues et civilisations (Paris).
  • Disponible pour le PEB
  • Cote : TH.606
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.