Reconnaissance et contexte : une approche coopérative pour la lecture de textes imprimés

par Jean-Luc Henry

Thèse de doctorat en Ingénierie Informatique

Sous la direction de Hubert Emptoz.


  • Résumé

    La lecture optique de textes imprimés ne se base pas sur la seule reconnaissance de la forme graphique des caractères isolés ; elle repose aussi sur des informations statistiques, typographiques et contextuelles ; l'utilisation d'un étage d'analyse contextuelle, indépendant de l'étage de reconnaissance n'est pas satisfaisante. Ce travail a pour objet d'établir une coopération entre l'étage de reconnaissance et l'étage de correction contextuelle. L'étage d'analyse contextuelle qui est ensuite créé fournit à l'étage de reconnaissance les informations nécessaires afin que ce dernier puisse corriger en permanence ses critères de décision. L'objectif est d'augmenter les performances globales du système, au fur et à mesure des lectures successives. La première partie traite de la reconnaissance des caractères sans l'aide du contexte. Elle débute par une présentation des principales méthodes d'extraction et de traitement de l'information. Dans un premier temps, nous comparons les caractères de façon à isoler toutes les formes identiques du texte, qui seront appelées prototypes. Dans un deuxième temps, nous identifions ces prototypes grâce à une approche originale de reconnaissance, fondée sur une classification par voisinages adaptatifs. La deuxième partie est consacrée au traitement contextuel et aux liens entre les deux parties. L'étage d'analyse contextuelle corrige les erreurs à partir des redondances dans le texte des prototypes de caractères, des informations issues de l'étage de reconnaissance et de l'exploitation d'un dictionnaire. Le système réorganise les classes de l'espace de représentation en modifiant les paramètres qui interviennent dans le processus de reconnaissance. Le taux de reconnaissance globale doit atteindre un optimum qui ne dépend plus de la base d'apprentissage de départ, mais des choix des attributs et de la méthode de reconnaissance utilisée.

  • Titre traduit

    = Recognition and context : a cooperative approach for reading printed text


  • Résumé

    The printed documents analysis is not only based on the optical character recognition, it also uses statistical, typographic and contextual information. A contextual stage, independent from the recognition does not give good results. The topic of this work is to build a cooperation between the recognition and the contextual stage. The recognition stage give information to the syntactic analysis stage in order to improve the correction process. Then, the contextual analysis stage provides necessary information to the recognition stage in order to correct its decision criteria and to improve automatically the recognition performance during the reading. This work is divided in two parts. The first part presents the character recognition only from the patterns and the second part studies the recognition with the help of contextual information mainly based on a syntactic correction. This work starts with a presentation of classic methods to extract features from patterns and to compare features descriptions. Then we introduce a pattern compacted by mutually comparing characters to collect all identical patterns on the entire text, called prototypes. In order to reconstruct the recognized text, we identify these prototypes with an original pretopological recognition approach, based on a classification by adaptive neighborhoods. The second part of this work deals with the contextual processing and the cooperation abilities between the two main stages involved in the recognition process. The contextual analysis corrects recognition errors with the pattern redundancies information and a trie dictionary. The system reorganizes pattern representation of the system by modifying parameters that intervene in the process of recognition. The global recognition rate reach an optimum that no longer depends on the training set, but on choice of features and the method of comparison used.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (177 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Accessible pour le PEB
  • Cote : C.83(1903)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.