Thèse soutenue

Contribution à une modélisation statistique du langage et à sa mise en oeuvre informatique

FR  |  
EN
Auteur / Autrice : Jean-Pierre Anfosso
Direction : Étienne Brunet
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance en 2002
Etablissement(s) : Nice

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Automates finis, analyseurs lexicaux, choix d'une structure d'index ouvert, relevé des formes et des références en une seule passe, tri linéaire combinant tri par base et par dénombrement. Indexation et recherche de n-grammes, méthode de Rabin-Karp. Problèmes algébriques posés par des textes naturels (déchiffrabilité, charades). Utilisation de propriétés statistiques des textes pour la compression, le décryptement. Modélisation markovienne du langage et théorie des graphes. Simulation de chaînes. Estimateurs, ajustement d'un modèle sur une séquence de texte, test d'adéquation et choix d'un ensemble d'états. Transposition de méthodes utilisées par la génomique, pour attribuer une séquence textuelle à un type d'écriture (corpus, auteur), et pour découper un corpus en zones homogènes (recherche d'interpolation, de scripteurs différents). Implantation de modèles de Markov cachés, adaptation des algorithmes (Viterbi, forward, backward, Baum-Welch) à des modèles M1-Mk.