Contribution à la structuration fonctionnelle des documents imprimés : exploitation de la dynamique du regard dans le repérage de l'information
Auteur / Autrice : | Véronique Eglin |
Direction : | Hubert Emptoz |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1998 |
Etablissement(s) : | Lyon, INSA |
Partenaire(s) de recherche : | Laboratoire : RFV - Laboratoire de Reconnaissance de Formes et Vision (Lyon, INSA ; 1995-2003) |
Mots clés
Résumé
Cette thèse s'inscrit dans le domaine de l'analyse automatique d'images de documents imprimés et repose sur deux grandes thématiques à première vue sans lien, que sont la segmentation de documents et la perception visuelle humaine. Plus spécifiquement, elle développe une méthodologie de structuration de documents composites par la capture d'informations à fort pouvoir attractif. La détermination de la structure des documents en blocs homogènes et la récupération des propriétés nécessaires à leur reconnaissance se réalisent par 1' exploitation de notre mode de perception visuelle. Cette exploration est décrite par le parcours du regard, privilégiant tour à tour des zones dont la localisation ne dépend pas d'un balayage uniforme, mais d'une intention de l'observateur et des caractéristiques visuelles du document. La simulation du parcours de 1' œil sur le document que nous avons retenue traduit la segmentation que ferait un lecteur qui aborde le document sans a priori sur ce qu'il veut trouver. Les traitements se découpent en deux phases principales. La première étape, de bas niveau, est basée sur l'analyse multirésolution des propriétés géométriques des contours des régions. Elle permet une sélection rapide des zones d'intérêt et aboutit à une esquisse de structuration physique du document. La deuxième étape, de plus haut niveau, exploite les caractéristiques macroscopiques des textes liées à des conventions typographiques standards (disposition et fréquence d'apparition des lettres, police, graisse, langue. . . ), mais également significatives d'une volonté du rédacteur. Elle permet une première classification des différents types de fontes des blocs de texte. Elle constitue une amélioration des procédures de bas niveau en ajoutant une information de texture à la base de la reconnaissance des blocs. Nous proposons finalement une phase de validation de ces travaux réalisée à partir de la prise de mesures oculométriques expérimentales (sur des observateurs humains).