Document image segmentation : content categorization

Mehdi Felhi

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyse d'images de documents : segmentation du contenu

FR |

EN

Auteur / Autrice :	Mehdi Felhi
Direction :	Salvatore-Antoine Tabbone
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 10/07/2014
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Sylvain Lazard
	Examinateurs / Examinatrices : Beatriz Marcotegui, Mario Vento
	Rapporteurs / Rapporteuses : Jean-Yves Ramel, Nicole Vincent

Mots clés

FR |

EN

Mots clés contrôlés

Traitement d'images

Classification automatique

Numérisation

Reconnaissance des formes (informatique)

Mots clés libres

Images de documents

Extraction de texte

Descripteurs de texte

Classification

K-SVM

Résumé

FR |

EN

Dans cette thèse, nous abordons le problème de la segmentation des images de documents en proposant de nouvelles approches pour la détection et la classification de leurs contenus. Dans un premier lieu, nous étudions le problème de l'estimation d'inclinaison des documents numérisées. Le but de ce travail étant de développer une approche automatique en mesure d'estimer l'angle d'inclinaison du texte dans les images de document. Notre méthode est basée sur la méthode Maximum Gradient Difference (MGD), la R-signature et la transformée de Ridgelets. Nous proposons ensuite une approche hybride pour la segmentation des documents. Nous décrivons notre descripteur de trait qui permet de détecter les composantes de texte en se basant sur la squeletisation. La méthode est appliquée pour la segmentation des images de documents numérisés (journaux et magazines) qui contiennent du texte, des lignes et des régions de photos. Le dernier volet de la thèse est consacré à la détection du texte dans les photos et posters. Pour cela, nous proposons un ensemble de descripteurs de texte basés sur les caractéristiques du trait. Notre approche commence par l'extraction et la sélection des candidats de caractères de texte. Deux méthodes ont été établies pour regrouper les caractères d'une même ligne de texte (mot ou phrase) ; l'une consiste à parcourir en profondeur un graphe, l'autre consiste à établir un critère de stabilité d'une région de texte. Enfin, les résultats sont affinés en classant les candidats de texte en régions « texte » et « non-texte » en utilisant une version à noyau du classifieur Support Vector Machine (K-SVM)

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse d'images de documents : segmentation du contenu

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse d'images de documents : segmentation du contenu

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses