Thèse soutenue

Identification automatique de types de formulaires par des méthodes stochastiques markoviennes

FR  |  
EN
Auteur / Autrice : Saïd Ramdane
Direction : Bruno Taconet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2002
Etablissement(s) : Le Havre

Résumé

FR  |  
EN

L'identification de formulaires est une opération importante de la chaîne de traitement d'un système de lecture automatique. Aucun signe distinctif n'est supposé marquer le formulaire. Le traitement commence par l'extraction des blocs rectangulaires de textes ou de rectangles englobant les dessins ou les images. Etant donné que les formulaires comprennent des champs manuscrits, la position, les dimensions des blocs rectangulaires présents sont variables. Les phénomènes de fusionnement et de fragmentation résultant de la segmentation induisent une variabilité supplémentaire dans le nombre des rectangles. Cette double variabilité des rectangles, présentent un caractère aléatoire. Une première méthode, de nature statistique, effectue la reconnaissance par le calcul d'une distance, qui généralise celle de Mahalanobis, entre la forme inconnue et un modèle déterminé par appariement dans chaque classe. L'apprentissage nécessite la délicate prise en compte du phénomène de fusionnement/fragmentation. Ce modèle statistique se révèle être en réalité un modèle stochastique markovien d'ordre 0. Une deuxième méthode, de nature stochastique, repose sur la construction de modèles de Markov cachés planaires (PHMM : Pseudo-2D Hidden Markov Model). Nous décrivons notamment un nouvel apprentissage non supervisé du nombre d'états par une méthode d'agrégation dynamique. La reconnaissance est basée sur l'estimation de la probabilité conditionnelle calculée par une extension de l'algorithme de Viterbi doublement imbriqué. Pour les deux méthodes, nous avons cherché à rendre automatiques toutes les phases de l'apprentissage et de la reconnaissance. Les résultats expérimentaux confirment la validité des deux méthodes