Thèse soutenue

Modélisation de texte numérique multilingue : vers un modèle général et extensible fondé sur le concept de textème

FR  |  
EN
Auteur / Autrice : Gábor Bella
Direction : Ioannis Kanellos
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Télécom Bretagne

Résumé

FR  |  
EN

Cette thèse s'intéresse aux modèles de texte numériques, plus précisément à la définition même des éléments textuels atomiques et à la manière dont le texte se compose à partir de ceux-ci. En réponse aux besoins d'internationalisation des systèmes informatiques, les modèles de texte historiques, basés sur l'idée de la table de codage, ont été enrichis par des connaissances semi-formelles liées aux systèmes d'écriture, connaissances qui sont désormais essentielles pour l'exécution de la moindre opération textuelle. Ainsi sont nés le codage de caractères Unicode et les formats de fonte dits " intelligents ". Par la réalisation que cet enrichissement ne représente que le début d'une convergence vers des modèles fondés sur des principes de la représentation des connaissances, nous proposons une approche alternative à la modélisation de texte, selon laquelle l'élément textuel se définit non comme une entrée d'une table mais par les propriétés qui le décrivent. Le formalisme que nous établissons - initialement développé dans le cadre de la représentation des connaissances - nous fournit une méthodologie pour définir, pour la première fois de manière précise, des notions telles que caractère, glyphe ou usage, mais aussi de concevoir l'élément textuel généralisé que nous appelons textème et qui devient l'atome d'une famille de nouveaux modèles de texte. L'étude de ces modèles nous amène ensuite à comprendre et à formaliser, du moins en partie, des phénomènes tels que la contextualité ou la dépendance entre éléments textuels, phénomènes qui sont également présents, même si parfois de manière cachée, dans les modèles actuels. Dans la thèse nous analysons également les enjeux liés à l'implémentation des modèles proposés.