Contributions à l'indexation et à la reconnaissance des manuscrits syriaques
Auteur / Autrice : | Pétra Bilane |
Direction : | Hubert Emptoz |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2010 |
Etablissement(s) : | Lyon, INSA |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....) |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse est dédiée à l’exploration informatique de manuscrits syriaques, c’est la première étude de ce type mise en œuvre. Le syriaque est une langue qui s’est développé à l’est du bassin méditerranéen, il y a plus de vingt siècles et qui aujourd’hui est encore pratiquée. La présentation de l’histoire du développement de cette langue fait l’objet du premier chapitre. Le syriaque s’écrit de droite à gauche, avec un aspect très singulier, un penché d’un angle d’environ 45° qui rend les algorithmes de traitement et d’analyse de documents développés pour les autres écritures inopérants. Dans le second chapitre, après nous être intéressés à la description et l’extraction des structures des documents, nous avons élaboré une méthode de segmentation des mots qui prend en compte ce penché ; elle nous conduit à une trentaine de formes stables qui sont des lettres individuelles verticales et des « n-grammes » constitués par des lettres penchées. Dans la deuxième partie de la thèse, nous nous sommes intéressés au contenu des documents à des fins d’indexation. Nous avons développé une méthode de repérage de mots qui permet de retrouver, dans un document, toutes les occurrences d’un mot selon plusieurs modes de requêtes (word spotting, word retrieval). Elle repose sur une similarité de forme évaluée à partir d’une analyse très fine de l’orientation du tracé de l’écriture. Le dernier chapitre est une première contribution à la transcription assistée des manuscrits syriaques qui repose sur la segmentation des mots décrite ci-dessus. Nous montrons que la transcription, qui s’appuie sur l’interaction, est en rupture avec la traditionnelle démarche de reconnaissance par OCR.