Thèse soutenue

Réalisation d'un système adapté à la reconnaissance de caractères typographiques persans

FR  |  
EN
Auteur / Autrice : Mohammad-Hossein Yektaie
Direction : Jean-Pierre Bonnefoy
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1998
Etablissement(s) : La Rochelle

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Les caractéristiques de l'écriture persane ne permettent pas d'appliquer les méthodes classiques pour la reconnaissance des mots et des caractères de cette langue. Les caractères persans ont la particularité d'être collés et qu'un grand nombre parmi eux, comportent des points diacritiques. La difficulté rencontrée en reconnaissance de l'écriture imprimée persane est similaire à celle rencontrée en reconnaissance des caractères manuscrits. Nous proposons dans un premier temps, une méthode de segmentation préalable des mots en caractères et sous caractères par fusion de trois types d'histogrammes. L'étude statistique sur les documents persans montre qu'une méthode de reconnaissance sans segmentation préalable des mots et sous-mots peut être utilisée car les caractères séparés et les sous-mots composés de deux et trois caractères représentent 85% de l'ensemble des cas avec environ $$1300$$ classes, tandis que le reste (15%) représentent les cas les moins fréquents avec environ $$3200$$ classes. Nous proposons une méthode de reconnaissance structurelle-statistique. La reconnaissance structurelle fonctionne sur des contours et des squelettes obtenus par une méthode d'approximation polygonale calculée à partir du code de Freeman, la reconnaissance statistique est utilisée quant à elle pour la reconnaissance des cas particuliers ainsi que pour lever certaines ambiguïtés, cette reconnaissance est basée sur une notion de corrélation floue.