Vers une nouvelle évaluation de la comparabilité et de l'idiomaticité des corpus multilingues
Auteur / Autrice : | Sarah Theroine |
Direction : | Laurent Gautier, Christophe Cruz |
Type : | Projet de thèse |
Discipline(s) : | Sciences du langage |
Date : | Inscription en doctorat le 15/04/2021 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....) |
Partenaire(s) de recherche : | Laboratoire : Centre Interlangues Texte, Image, Langage |
Equipe de recherche : Modèles et Discours | |
établissement de préparation : Université de Bourgogne (1970-....) |
Mots clés
Mots clés libres
Résumé
Le sujet repose sur la reconnaissance de la part prépondérante et du rôle-clef des notions de figement/pré-formation dans la mise en discours de contenus spécialisés ayant pour corollaire le dépassement de la dichotomie lexique vs. grammaire au profit de notions comme celles de schéma/patterns. Ces notions, investies différemment selon les cadres théoriques de référence, ont en commun de reconnaître dans la récurrence, la reproductibilité et la stabilité de figements complexes des éléments fondamentaux de la production langagière humaine pouvant être modélisés avantageusement dans les interactions-hommes machine à condition de disposer de larges corpus homogènes et annotés avec un grain permettant la reconnaissance de ces derniers (vs la conjonction de liste de mots isolés mis en discours sur la base de grammaires locales). En contexte de communication plurilingue comme la traduction, ce postulat entre en synergie avec la reconnaissance de la différence de qualité linguistique en termes de fluidité et d'idiomaticité des outputs entre données extraites de corpus parallèles et comparables