Contribution à une modélisation statistique du langage et à sa mise en oeuvre informatique
Auteur / Autrice : | Jean-Pierre Anfosso |
Direction : | Étienne Brunet |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance en 2002 |
Etablissement(s) : | Nice |
Mots clés
Mots clés contrôlés
Résumé
Automates finis, analyseurs lexicaux, choix d'une structure d'index ouvert, relevé des formes et des références en une seule passe, tri linéaire combinant tri par base et par dénombrement. Indexation et recherche de n-grammes, méthode de Rabin-Karp. Problèmes algébriques posés par des textes naturels (déchiffrabilité, charades). Utilisation de propriétés statistiques des textes pour la compression, le décryptement. Modélisation markovienne du langage et théorie des graphes. Simulation de chaînes. Estimateurs, ajustement d'un modèle sur une séquence de texte, test d'adéquation et choix d'un ensemble d'états. Transposition de méthodes utilisées par la génomique, pour attribuer une séquence textuelle à un type d'écriture (corpus, auteur), et pour découper un corpus en zones homogènes (recherche d'interpolation, de scripteurs différents). Implantation de modèles de Markov cachés, adaptation des algorithmes (Viterbi, forward, backward, Baum-Welch) à des modèles M1-Mk.