Thèse soutenue

FR
Auteur / Autrice : Zohra Saidane
Direction : Jean-Luc Dugelay
Type : Thèse de doctorat
Discipline(s) : Signal et images
Date : Soutenance en 2008
Etablissement(s) : Paris, ENST

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Grâce à des moyens de stockage de plus en plus puissants, les ressources multimédia sont devenues de nos jours des ressources incontournables, aussi bien dans le domaine de l’information et de l’audiovisuel (agences de presse, INA), que de la culture (musées), des transports (surveillance), de l’environnement (images satellitaires), ou de l’imagerie médicale (dossiers médicaux en milieux hospitaliers). Ainsi, le défi est-il de comment trouver rapidement l’information pertinente. Par conséquent, la recherche en multimédia est de plus en plus concentrée sur l’indexation et la récupération de l’information. Pour accomplir cette tâche, le texte inclus dans les images et les vidéos peut -être un élément clé pour l’indexation. Les défis de la reconnaissance du texte dans les images et les vidéos sont nombreux : mauvaise résolution, caractères de tailles différentes, artéfacts dus à la compression et aux effets d’anti-recouvrement, arrière plan complexe et variable. Il y a quatre étapes pour la reconnaissance du texte: (1) détection de la présence du texte, (2) localisation de la région du texte, (3) extraction et amélioration du texte, et finalement (4) la reconnaissance du contenu du texte. Dans ce travail nous nous concentrerons sur cette dernière étape et supposerons donc que la zone de texte a été détectée, localisée et extraite correctement. Ce module de reconnaissance peut être aussi divisé en quelques sous-modules tel que : un module de binarisation de texte, un module de segmentation de texte et un module de reconnaissance de caractères. Nous nous sommes intéressés aux réseaux de neurones à convolutions. Ce sont des réseaux de neurones dont la topologie est similaire à celle du cortex visuel des mammifères. Les réseaux de neurones à convolutions ont été initialement utilisés pour la reconnaissance de chiffres manuscrits. Ils ont ensuite été appliqués avec succés à de nombreux problèmes de reconnaissance de forme. Nous proposons dans cette thèse la conception d’une nouvelle méthode de binarisation d’image de texte, la conception d’une nouvelle méthode de segmentation d’images de texte, l’étude d’un réseau de neurones à convolutions pour la reconnaissance d images de caractères, une discussion sur la pertinence de l’étape de binarisation pour la reconnaissance de texte dans les images basée sur des méthodes d apprentissage automatique, et la conception d’une nouvelle méthode de reconnaissance de texte dans les images basée sur la théorie des graphes.