Compression de textes en langue naturelle
Auteur / Autrice : | Claude Martineau |
Direction : | Maxime Crochemore |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique fondamentale |
Date : | Soutenance en 2001 |
Etablissement(s) : | Université de Marne-la-Vallée (1991-2019) |
Mots clés
Mots clés contrôlés
Résumé
Nous étudions dans cette thèse les méthodes de compression de données dans le cadre de leur utilisation pour le traitement de textes en langue naturelle. Nous nous intéressons particulièrement aux algorithmes utilisant les mots comme unité de base. Nous avons développé des algorithmes qui permettent de diviser la taille originale du texte par un coefficient de l'ordre de 3,5 en conservant l'accès direct (via un index) au texte sous forme comprimée. L'ensemble des mots qui composent un texte (le lexique) n'est pas, (a priori) connu. Compresser efficacement un texte nécessite donc de compresser également le lexique des mots qui le constitue. Dans ce but, nous avons mis au point une méthode de représentation des lexiques qui permet, en lui appliquant une compression à base de chaînes de Markov, d'obtenir des taux de compression très importants. Les premiers algorithmes dédiés à la compression de textes en langue naturelle ont été élaborés dans le but d'archiver de volumineuses bases de données textuelles, pouvant atteindre plusieurs dizaines de gigaoctets, pour lesquelles la taille du lexique est très inférieure à celle des données. Nos algorithmes peuvent s'appliquer aussi aux textes de taille usuelle (variant d'une cinquantaine de Ko à quelques Mo) pour lesquels la taille du lexique représente une part importante de celle du texte