Thèse soutenue

Détection de texte de scène multilingue basée sur des réseaux de neurones convolutifs

FR  |  
EN
Auteur / Autrice : Wafa Khlif
Direction : Mohamed Adel AlimiJean-Christophe Burie
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 02/06/2022
Etablissement(s) : La Rochelle en cotutelle avec Université de Sfax (Tunisie)
Ecole(s) doctorale(s) : École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury : Président / Présidente : Mohamed Yacine Ghamri Doudane
Examinateurs / Examinatrices : Mohamed Adel Alimi, Jean-Christophe Burie, Mohamed Yacine Ghamri Doudane, Najoua Essoukri Ben Amara, Jean-Yves Ramel, Véronique Eglin, Nibal Nayef
Rapporteurs / Rapporteuses : Najoua Essoukri Ben Amara, Jean-Yves Ramel

Résumé

FR  |  
EN

Cette thèse propose des approches de détection de texte par des techniques d'apprentissage profond pour explorer et récupérer des contenus faiblement structurés dans des images de scène naturelles. Ces travaux proposent, dans un premier temps, une méthode de détection de texte dans des images de scène naturelle basée sur une analyse multi-niveaux des composantes connexes (CC) et l'apprentissage des caractéristiques du texte par un réseau de neurones convolutionnel (CNN), suivie d'un regroupement des zones de texte détectées par une méthode à base de graphes. Les caractéristiques des composantes texte brut/non-texte obtenues à différents niveaux de granularité sont apprises via un CNN. Une deuxième méthode est présentée dans cette thèse inspirée du système YOLO. Le système réalise la détection du texte et l'identification du script simultanément. Nous considérons la tâche de détection de texte multi script comme un problème de détection d'objets, où l'objet est le script du texte. La détection de texte et l'identification des scripts sont réalisées avec une approche holistique en utilisant un réseau neuronal convolutionnel unique. Les évaluations expérimentales de ces approches sont réalisées sur le jeu de données MLT (Multi-Lingual Text dataset), nous avons contribué à la création de ce nouveau jeu de données. Il est composé d'images de scènes naturelles et synthétiques contenant du texte, tels que des panneaux de circulation et publicitaires, des noms de magasins, d'images extraites des réseaux sociaux. Ce type d'images représente l'un des types d'images les plus fréquemment rencontrés sur Internet, à savoir les images avec du texte incorporé dans les réseaux sociaux.