Thèse soutenue

Modélisation d'un discours étymologique. Prolégomènes à l'informatisation du Französisches Etymologisches Wörterbuch

FR  |  
EN
Auteur / Autrice : Pascale Renders
Direction : Eva BuchiMarie-Guy Boutier
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 20/06/2011
Etablissement(s) : Nancy 2 en cotutelle avec Université de Liège
Ecole(s) doctorale(s) : Ecole doctorale Langages, Temps, Sociétés (LTS) (Nancy-Metz)
Partenaire(s) de recherche : Laboratoire : ATILF - Analyse et traitement informatique de la langue française - UMR 7118
Jury : Président / Présidente : Jean-Paul Chauveau
Examinateurs / Examinatrices : Pierre-Arnoul De Marneffe, Yan Grueb, Gérald Purnelle, Wolfgang Raible

Résumé

FR  |  
EN

Le Französisches Etymologisches Wörterbuch, ouvrage de référence en linguistique française et romane, est actuellement sous-exploité, en raison des difficultés de consultation que posent ses particularités lexicographiques. La rétroconversion des 25 volumes imprimés en un dictionnaire informatisé, que la communauté scientifique appelle de ses voeux, pourrait remédier à ce problème. La densité et la complexité structurelle de l'ouvrage font toutefois craindre que l'opération se révèle peu raisonnable, voire utopique. Par ailleurs, l'informatisation présente le risque de dénaturer le discours fewien et d'ouvrir la voie à des pratiques de consultation incorrectes. Cette thèse se propose d'étudier la faisabilité du projet de rétroconversion du FEW, en prenant en compte toutes les contraintes qui lui sont imposées. Dans la première partie de l'étude, nous modélisons le discours étymologique fewien de façon à résoudre les difficultés de consultation et de lecture relevées, tout en respectant les structures de l'ouvrage. Cette modélisation, formalisée en XML, rend compte de deux dimensions complémentaires du FEW, correspondant à deux visions de l'oeuvre : comme un thesaurus d'unités lexicales d'une part, comme un recueil de monographies d'autre part. La seconde partie de notre étude examine comment appliquer le modèle au texte fewien de façon automatisée. Un logiciel de rétroconversion a été conçu dans ce but. Le noyau du logiciel est constitué d'une trentaine d'algorithmes qui identifient, dans un article du FEW, les divers types d'information pertinents et les balisent. L'application du logiciel sur un corpus de 150 articles du FEW produit des résultats de balisage comportant très peu d'erreurs problématiques. Le résultat est encore perfectible, mais il démontre la faisabilité d'une rétroconversion du FEW qui, moyennant la création d'outils d'exploitation appropriés (moteur et interface de recherche), devrait répondre à la majorité des attentes de la communauté scientifique, en rendant l'ouvrage plus accessible sans pour autant éluder la complexité et la profondeur de son discours.