Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue
Auteur / Autrice : | Mathieu Mangeot |
Direction : | Christian Boitet, Gilles Sérasset |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2001 |
Etablissement(s) : | Université Joseph Fourier (Grenoble ; 1971-2015) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Communication Langagière et interaction personne-système (Grenoble ; 1995-2006) |
Entreprise : Xerox Research Centre Europe (Grenoble1993-2017) | |
Jury : | Président / Présidente : Laurent Trilling |
Examinateurs / Examinatrices : Frédéric Andrès, Jean-Pierre Chanod, Alain Polguère | |
Rapporteur / Rapporteuse : Jacques Chauché, Laurent Romary |
Mots clés
Mots clés contrôlés
Résumé
Les besoins croissants en ressources lexicales et le succès des projets de développement coopératif comme LINUX convergent vers l'idée d'accumuler des données lexicales multilingues de grande taille et de grande richesse par construction coopérative sur la Toile et utilisation ''mutualisée''. Les contributeurs fourniraient eux-mêmes ces informations sous une forme standardisée grâce à un environnement adapté. L'étude du contexte actuel de la dictionnairique nous a conduit à l'identification de problèmes difficiles tels que la structuration et la manipulation de données hétérogènes, la visualisation d'une grande quantité de données lexicales multilingues et la construction en coopération par des personnes aux compétences diverses. Des prototypages et des expérimentations portant sur la consultation de ressources hétérogènes, l'enrichissement et personnalisation du résultat, la construction de ressources en ligne et la rédaction d'articles avec un éditeur standard nous ont permis de résoudre séparément ces problèmes. Cela nous a permis de concevoir un environnement complet de ''bases lexicales'' répondant à tous ces problèmes se plaçant au dessus des SGBD utilisés pour le stockage et intégrant un serveur pour la construction coopérative. Son noyau inclut un formalisme générique de définition de structures lexicales inspiré de SUBLIM de G. Sérasset, mais complété et réexprimé en XML. Cet environnement est actuellement appliqué au projet Papillon de développement par des bénévoles sur Internet d'une base lexicale comprenant cinq langues. L'architecture de la base est constituée d'un dictionnaire monolingue pour chaque langue et d'un dictionnaire pivot d'acceptions interlingues reliant les articles monolingues (lexies) dont la structure provient de la lexicologie combinatoire. Enfin, l'architecture du serveur assez générique devrait être réutilisée dans d'autres contextes (mémoires de traduction, outils pour traducteurs, communication et RI multilingue, annotations multimédia)