Thèse soutenue

Formalisation de la langue ukrainienne avec NooJ : préparation du module ukrainien

FR  |  
EN
Auteur / Autrice : Olena Saint-Joanis
Direction : Max SilberzteinOleg Chinkarouk
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 29/03/2024
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....)
Partenaire(s) de recherche : établissement de préparation : Université de Franche-Comté (1971-2024)
Laboratoire : Centre de recherches interdisciplinaires et transculturelles (Besançon)
Jury : Président / Présidente : Christian Boitet
Examinateurs / Examinatrices : Vincent Bénet, Ivan Šmilauer
Rapporteurs / Rapporteuses : Christian Boitet, Thierry Poibeau

Résumé

FR  |  
EN

L'intérêt de ce travail est porté sur la formalisation de la langue ukrainienne à travers la plateforme NooJ.La langue ukrainienne est très peu décrite dans le monde occidental, alors que c'est une langue officielle d'un pays européen qui compte plus de 45 millions d'habitants et qui est représentée dans plusieurs institutions mondiales. L'ukrainien est également étudié dans plusieurs universités d'Europe.De ce fait, la formalisation de l'ukrainien à travers un outil informatique pourra trouver plusieurs applications pratiques et notamment : cela permettra de faire l'analyse morphosyntaxique et sémantique approfondie des corpus, jouer un rôle dans le développement des applications TAL (par exemple, extracteurs d'entités nommées, terminologie, traduction automatique, correcteur d'orthographe, etc.), mais aussi dans le domaine de l'enseignement assisté par ordinateur (EAO). Nous avons construit un module ukrainien pour NooJ qui est composé d'un dictionnaire principal « Ukr_dictionary_V.1.3 » et de deux dictionnaires secondaires « Ukr_dictionary_Participle_V.1.3 » et « Ukr_dictionary_Proper_lowercase_V.1.3 ». Le dictionnaire principal contient 157 534 entrées et reconnaît 3 184 522 formes fléchies. Il décrit des ALU simples, composées d'une seule forme graphique, mais aussi des locutions composées de deux formes ou plus ; il reconnait et analyse les ALU avec orthographes alternatives, et explicite les abréviations.Les formes fléchies des entrées variables sont formalisées grâce à 303 paradigmes flexionnels. Nous avons formalisé également 114 paradigmes dérivationnels qui permettent de lier les verbes perfectifs aux verbes imperfectifs.Nous avons décrit de nombreuses formes dérivées ou les variantes orthographiques absentes du dictionnaire grâce aux 19 grammaires morphologiques.Enfin, nous avons recensé certaines formes dans les dictionnaires secondaires, notamment les participes et les noms propres en minuscule. Le dictionnaire « Ukr_dictionary_Participle_V.1.3 » contient 13 070 entrées et complète le dictionnaire principal, quand la grammaire morphologique qui décrit des participes ne permet pas de reconnaitre le participe dans le texte. Le dictionnaire « Ukr_dictionary_Proper_lowercase_V.1.3 » contient des noms propres écrits en minuscule, en combinaison avec la grammaire «Adjectives_Relatives_V.1.3.nom», il permet de reconnaitre les adjectifs relatifs créés à partir des noms propres.Grâce à ces ressources, 98,3% d'occurrences dans le corpus de tests ont été reconnues et annotées avec leurs informations morphologiques.Nous avons également construit dix grammaires syntaxiques qui permettent de lever un grand nombre d'ambiguïtés, puisque nous passons de 206 445 annotations à 131 415 pour un corpus de 108 137 occurrences.