Module NooJ polylectal pour la langue rromani : élaboration d'un outil informatique et approche diasystémique
Auteur / Autrice : | Masako Watabe |
Direction : | Max Silberztein, Gheorghe Sarău |
Type : | Projet de thèse |
Discipline(s) : | Sciences du langage |
Date : | Inscription en doctorat le 24/11/2022 |
Etablissement(s) : | Besançon, Université Marie et Louis Pasteur |
Ecole(s) doctorale(s) : | École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherches Interdisciplinaires et Transculturelles |
Equipe de recherche : TRAITEMENT AUTOMATIQUE DES LANGUES | |
établissement de préparation : Université de Franche-Comté (1971-....) |
Mots clés
Résumé
Cette thèse vise à perfectionner le module NooJ portant sur la langue rromani. Ce module présente la particularité innovatrice d'être polylectal et donc d'inclure les quatre dialectes de cette langue à travers une approche diasystémique. Cette division en quatre dialectes est définie par deux types d'isoglosses non aréales croisées : d'une part, l'opposition « o/e » qui dans une terminaison verbale (1SG.PST.IND), associée à plusieurs autres traits formant un faisceau d'isoglosses, et d'autre part, une mutation phonologique touchant deux affriquées palato-alvéolaires bien définies. Au-delà de cette double dichotomie, certains phénomènes peuvent être communs aux deux ensembles séparés par chacune des isoglosses. Le diasystème de la langue rromani comprend une structure polynomique, dans la mesure où les dialectes sont légitimés comme normes diamésiques sur le plan sociolinguistique. L'objectif de cette thèse est de reconstituer à l'aide de l'informatique le diasystème de la langue rromani, non seulement au niveau lexical, mais aussi morphologique et syntaxique. Pour commencer, un outil d'extraction sera élaboré afin d'intégrer le fichier d'un dictionnaire existant dans le système NooJ, à savoir un logiciel de nature linguistique à double fonctions : lexicale et grammaticale (morphosyntaxique). Les règles grammaticales programmées dans NooJ seront appliquées automatiquement aux entrées d'un dictionnaire NooJ permettant d'annoter et d'analyser les textes dans diverses variétés dialectales. Nous définirons la catégorisation des étiquettes morphologiques afin que le système s'adapte de manière optimale à la grammaire du rromani, ce qui permettra de programmer la morphologie flexionnelle. Par la suite, nous enrichirons la morphologie dérivationnelle et la syntaxe dans le module NooJ pour la langue rromani. L'exploitation des données informatisées d'un dictionnaire existant nous permet d'ores et déjà de modéliser les types de dérivation. Parallèlement, nous développerons la syntaxe qui est indispensable pour annoter les textes plus correctement. Enfin, lors du perfectionnement du module NooJ au rromani, nous l'appliquerons dans les textes de divers dialectes afin d'examiner la cohérence (informatique et grammaticale) de l'ensemble du système. À l'aide des corpus de différents dialectes et de divers parlers, nous analyserons le système des diasynonymes lexicaux et grammaticaux (en termes à la fois de cognats et de synonymes) et enrichirons la diversité dialectale dans le système NooJ. Inversement, cette « diversité » dialectale pourra illustrer le diasystème de la langue rromani. Ce module NooJ pour la langue rromani fournira des ressources linguistiques importantes afin de développer d'autres outils informatiques pour la langue rromani, mais aussi, potentiellement, pour d'autres langues peu dotées, ce qui est un grand enjeu actuellement pour la linguistique générale et appliquée. A cette fin de moyen et long terme, nous testerons l'efficacité de NooJ dans divers domaines : élaboration de tableaux grammaticaux automatisés, annotation de textes, préparation d'exercices didactiques, épreuve d'un pilote de correcteur orthographique. Toutes ces opérations seront applicables à d'autres langues peu dotées, pour les générations successives d'utilisateurs de ce logiciel, qui revêt une importance stratégique pour la description, la valorisation et la didactisation des langues du monde, au-delà du seul rromani.