Thèse soutenue

Dictionnaire électronique français-quechua des verbes pour le TAL

FR  |  
EN
Auteur / Autrice : Maximiliano Duran
Direction : Max SilberzteinCésar Itier
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 24/03/2017
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....)
Partenaire(s) de recherche : Laboratoire : Edition, Langages, Littératures, Informatique, Arts, Didactiques, Discours (ELLIADD) (Besançon) - Edition- Littératures- Langages- Informatique- Arts- Didactique- Discours - UFC / ELLIADD
établissement de préparation : Université de Franche-Comté (1971-....)
Jury : Président / Présidente : Denis Le Pesant
Examinateurs / Examinatrices : Max Silberztein, César Itier, Denis Le Pesant, Willem F. H. Adelaar
Rapporteur / Rapporteuse : Denis Le Pesant, Willem F. H. Adelaar

Résumé

FR  |  
EN

Le traitement automatique de la langue quechua (TALQ) ne dispose pas actuellement d'un dictionnaire électronique des verbes, du français-quechua. Pourtant, un projet visant la traduction automatique nécessite au préalable, entre autres, cette importante ressource.Cette thèse consiste à élaborer un dictionnaire électronique français-quechua des verbes. La réalisation d'un tel dictionnaire peut ouvrir également de nouvelles perspectives dans l'enseignement à distance, dans les domaines de l'accès multilingue aux informations, l'annotation/l'indexation des documents, la correction orthographique et pour le TAL en général. La première difficulté consiste à sélectionner un dictionnaire français comme base de travail. Parmi les nombreux dictionnaires français, il en existe très peu en format électronique, et moins encore ceux dont les sources soient en libre accès au public. Parmi ces derniers, l'ouvrage Les verbes français (LVF), contenant 25 610 sens verbaux, que Jean Dubois et Françoise Dubois-Charlier ont publié chez Larousse en 1997, est un dictionnaire particulièrement complet ; de plus il a l 'avantage d'avoir une licence « open source » et un format compatible avec la plateforme NooJ. En tenant en compte ces considérations nous avons choisi traduire ce dictionnaire en quechua.Cependant, cette tâche se heurte à un obstacle considérable : le lexique quechua de verbes simples compte moins de l 500 entrées. Comment faire correspondre 25 610 sens verbaux français avec seulement 1 500 verbes quechua ?Sommes-nous condamnés à utiliser beaucoup de polysémies? Par exemple, dans LVF il y a 27 sens verbaux du verbe « tourner » ; doit-on tous les traduire par muyuy ? Ou bien, pouvons-nous utiliser une stratégie particulière et remarquable de la langue pour répondre à ce défi : la génération de nouveaux verbes par dérivation suffixale ?Nous avons inventorié tous les suffixes du quechua qui permettent d'obtenir une forme dérivée possédant le comportement d'un verbe simple. Cet ensemble de suffixes que nous appelons SIP_DRV, contient 27 éléments. Ainsi chaque verbe quechua transitif ou intransitif donne naissance à au moins 27 verbes dérivés. Il reste cependant à formaliser les paradigmes et grammaires qui vont nous permettre d'obtenir les dérivations compatibles avec la morphosyntaxe de la langue. Cela a été réalisé avec NooJ.L'application de ces grammaires nous a permis d'obtenir 40 500 unités linguistiques conjugables (ULAV) à partir de 1 500 verbes simples quechua. Ce résultat encourageant nous permet d'envisager une solution favorable à notre projet de traduction des 25 000 sens verbaux du français en quechua.À ce stade, une nouvelle difficulté apparaît : la traduction en français de cette quantité énorme des formes verbales conjugables générées, dont sa résolution est essentielle pour notre projet de traduire une partie importante des vingt-cinq mille verbes français en quechua.Afin d'obtenir la traduction de ces ULAV, nous avons besoin d'abord de connaître la modalité d'énonciation qu'apporte chaque SIP quand il s'agglutine au radical verbal pour le transformer. Chaque suffixe peut avoir plusieurs modalités d'énonciation. Nous les avons obtenus à partir du corpus, de notre propre expérience et quelques enregistrements dans le terrain. Nous avons ainsi construit un tableau indexé contenant toutes ces modalités. Ensuite, nous utilisons des opérateurs de NooJ pour programmer les grammaires qui présentent la traduction automatique en une forme glosés de modalités d'énonciation.Finalement, nous avons développé un algorithme qui nous a permis d'obtenir la traduction réciproque du français vers le quechua de plus de 8 500 sens verbaux de niveau 3 et un certain nombre de sens verbaux de niveau 4 et 5.