Thèse en cours

Vers une nouvelle évaluation de la comparabilité et de l'idiomaticité des corpus multilingues

FR  |  
EN
Auteur / Autrice : Sarah Theroine
Direction : Laurent GautierChristophe Cruz
Type : Projet de thèse
Discipline(s) : Sciences du langage
Date : Inscription en doctorat le 15/04/2021
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....)
Partenaire(s) de recherche : Laboratoire : Centre Interlangues Texte, Image, Langage
Equipe de recherche : Modèles et Discours
établissement de préparation : Université de Bourgogne (1970-....)

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le sujet repose sur la reconnaissance de la part prépondérante et du rôle-clef des notions de figement/pré-formation dans la mise en discours de contenus spécialisés ayant pour corollaire le dépassement de la dichotomie lexique vs. grammaire au profit de notions comme celles de schéma/patterns. Ces notions, investies différemment selon les cadres théoriques de référence, ont en commun de reconnaître dans la récurrence, la reproductibilité et la stabilité de figements complexes des éléments fondamentaux de la production langagière humaine pouvant être modélisés avantageusement dans les interactions-hommes machine à condition de disposer de larges corpus homogènes et annotés avec un grain permettant la reconnaissance de ces derniers (vs la conjonction de liste de mots isolés mis en discours sur la base de grammaires locales). En contexte de communication plurilingue comme la traduction, ce postulat entre en synergie avec la reconnaissance de la différence de qualité linguistique – en termes de fluidité et d'idiomaticité des outputs – entre données extraites de corpus parallèles et comparables