Thèse soutenue

Cooperation entre segmentation et reconnaissance des caracteres imprimes degrades

FR
Auteur / Autrice : LARBI BEHEIM
Direction : Maurice Milgram
Type : Thèse de doctorat
Discipline(s) : Chimie
Date : Soutenance en 2001
Etablissement(s) : Paris 6

Résumé

FR

La segmentation des caracteres degrades est un probleme tres complique. Les caracteres coupes et les caracteres colles sont deux types de degradation que nous rencontrons frequemment dans les vieux documents. Beaucoup de systemes de reconnaissance de caracteres restent obsoletes devant ce probleme. Ces systemes peuvent actuellement, reconnaitre des documents complexes : texte et images en nivaux de gris, disposition complique du texte, colonnes, etc. Mais, ces systemes sont incapables de reconnaitre les documents tres degrades. Des milliards de pages sont a scanner et reconnaitre une fois le probleme des caracteres coupes, colles et sous-echantillonnes sera resolu. Nous proposons donc dans cette these des techniques tres efficaces pour resoudre le probleme de segmentation et reconnaissance des caracteres coupes et ceux qui sont colles basees sur la cooperation segmentation/reconnaissance. Ces techniques utilisent plusieurs outils mathematiques comme la logique floue ou les statistiques. Un algorithme regroupant toutes ces techniques est ensuite expose. Il reussit a traiter les chaines de caracteres constituees d'un certain nombre de caracteres coupes ou colles sans une connaissance a priori de la largeur des caracteres ni de leur nombre. Le taux de reconnaissance est de 75% pour les caracteres colles, et de 87% pour les caracteres coupes. Un post-traitement base sur des contraintes lexicales permet facilement de ramener ces taux a 94% pour les caracteres colles et 98% pour les caracteres coupes.