Multi-lingual scene text detection based on convolutional neural networks

Wafa Khlif

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Détection de texte de scène multilingue basée sur des réseaux de neurones convolutifs

FR |

EN

Auteur / Autrice :	Wafa Khlif
Direction :	Mohamed Adel Alimi, Jean-Christophe Burie
Type :	Thèse de doctorat
Discipline(s) :	Informatique et applications
Date :	Soutenance le 02/06/2022
Etablissement(s) :	La Rochelle en cotutelle avec Université de Sfax (Tunisie)
Ecole(s) doctorale(s) :	École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury :	Président / Présidente : Mohamed Yacine Ghamri Doudane
	Examinateurs / Examinatrices : Mohamed Adel Alimi, Jean-Christophe Burie, Mohamed Yacine Ghamri Doudane, Najoua Essoukri Ben Amara, Jean-Yves Ramel, Véronique Eglin, Nibal Nayef
	Rapporteurs / Rapporteuses : Najoua Essoukri Ben Amara, Jean-Yves Ramel

Mots clés

FR |

EN

Mots clés contrôlés

Reconnaissance d'objets (informatique)

Apprentissage profond

Traitement d'images -- Techniques numériques

Réseaux neuronaux (informatique)

Mots clés libres

Identification du script

Résumé

FR |

EN

Cette thèse propose des approches de détection de texte par des techniques d'apprentissage profond pour explorer et récupérer des contenus faiblement structurés dans des images de scène naturelles. Ces travaux proposent, dans un premier temps, une méthode de détection de texte dans des images de scène naturelle basée sur une analyse multi-niveaux des composantes connexes (CC) et l'apprentissage des caractéristiques du texte par un réseau de neurones convolutionnel (CNN), suivie d'un regroupement des zones de texte détectées par une méthode à base de graphes. Les caractéristiques des composantes texte brut/non-texte obtenues à différents niveaux de granularité sont apprises via un CNN. Une deuxième méthode est présentée dans cette thèse inspirée du système YOLO. Le système réalise la détection du texte et l'identification du script simultanément. Nous considérons la tâche de détection de texte multi script comme un problème de détection d'objets, où l'objet est le script du texte. La détection de texte et l'identification des scripts sont réalisées avec une approche holistique en utilisant un réseau neuronal convolutionnel unique. Les évaluations expérimentales de ces approches sont réalisées sur le jeu de données MLT (Multi-Lingual Text dataset), nous avons contribué à la création de ce nouveau jeu de données. Il est composé d'images de scènes naturelles et synthétiques contenant du texte, tels que des panneaux de circulation et publicitaires, des noms de magasins, d'images extraites des réseaux sociaux. Ce type d'images représente l'un des types d'images les plus fréquemment rencontrés sur Internet, à savoir les images avec du texte incorporé dans les réseaux sociaux.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Détection de texte de scène multilingue basée sur des réseaux de neurones convolutifs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Détection de texte de scène multilingue basée sur des réseaux de neurones convolutifs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses