Reconnaissance de textes imprimés multifontes à l'aide de modèles stochastiques et métriques
Auteur / Autrice : | Julian Chukwuka Anigbogu |
Direction : | Abdelwaheb Belaïd |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1992 |
Etablissement(s) : | Nancy 1 |
Partenaire(s) de recherche : | Autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques |
Mots clés
Résumé
Cette thèse traite de la reconnaissance de textes imprimes (OCR) à l'aide des modèles stochastiques de type markovien cache (hmm) et des modèles métriques de type euclidien. Ce travail nous a amenés dans une première partie à développer un certain nombre d'outils pour la preclassification rapide des caractères identiques afin de réduire le nombre de formes à reconnaitre et pour l'identification automatique de la fonte dominante dans un bloc du texte. Ceux-ci ont pour but de faciliter la tache de la reconnaissance en réduisant l'espace de recherche et de permettre la restitution d'un document avec sa structure et son contenu. Dans un deuxième volet de cette thèse, nous avons étudié de manière poussée les comportements des hmms du premier et du second ordre en fonction des paramètres d'apprentissage et de reconnaissance. Ces réflexions nous ont conduits à proposer des améliorations, qui ont été apportées aux algorithmes de reconnaissance par pondération des scores de Viterbi et a travers la coopération entre les différentes méthodes de reconnaissance développées (stochastiques et métriques) par vote majoritaire. Dans une troisième partie, nous avons développé des correcteurs contextuels fondes sur des dictionnaires et sur des hmms du premier et du second ordre opérant sur des digrammes, des trigrammes et les scores du système OCR. L'ensemble nous a donne de bons résultats, souvent supérieurs à ceux des systèmes analogues