Exploitation de la détection de contours pour la compréhension de texte dans une scène visuelle
Auteur / Autrice : | Dinh Nguyen Van |
Direction : | Shijian Lu, Mounir Mokhtari |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 02/05/2018 |
Etablissement(s) : | Sorbonne université en cotutelle avec Nanyang Technological University (Singapour) |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Image & pervasive access lab (Singapour ; 2006-....) |
Jury : | Président / Présidente : Nicolas Loménie |
Examinateurs / Examinatrices : Marie Babel | |
Rapporteurs / Rapporteuses : François Brémond, Frédéric Lerasle |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L'intérêt porté à la détection de contours pour la compréhension de texte dans une scène visuelle a été croissant au cours des dernières années comme en témoignent un grand nombre d'applications telles que les systèmes de reconnaissance de plaque d'immatriculation de voiture, les systèmes de navigation, les voitures autonomes basées sur la reconnaissance des panneaux de signalisation, etc. Dans cette recherche, nous abordons les défis de la conception de systèmes de lecture de texte de scène automatique robustes et fiables. Deux étapes majeures du système, à savoir, la localisation de texte dans une scène et sa reconnaissance, ont été étudiées et de nouveaux algorithmes ont été développés pour y remédier. Nos travaux sont basés sur l'observation qu'indiquer des régions de texte de scène primaire qui ont forte probabilité d'être des textes est un aspect important dans la localisation et la reconnaissance de cette information. Ce facteur peut influencer à la fois la précision et l'efficacité des systèmes de détection et de reconnaissance. Inspirées par les succès des recherche de proposition d'objets dans la détection et la reconnaissance objet général, deux techniques de proposition de texte de scène ont été proposées, à savoir l'approche Text-Edge-Box (TEB) et l'approche Max-Pooling Text Proposal (MPT). Dans le TEB, les fonctionnalités bottom-up proposées, qui sont extraites des cartes binaires de contours de Canny, sont utilisées pour regrouper les contours connectés et leur attribuer un score distinct. Dans la technique MPT, une nouvelle solution de groupement est proposée, qui est inspiré de l'approche Max-Pooling. À la différence des techniques de regroupement existantes, cette solution ne repose sur aucune règle heuristique spécifique liée au texte ni sur aucun seuil pour fournir des décisions de regroupement. Basé sur ces résultats, nous avons conçu un système pour comprendre le texte dans une scène visuelle en intégrant des modèles a l'état de l'art en reconnaissance de texte, où une suppression des faux positifs et une reconnaissance de mot peut être traitée simultanément. De plus, nous avons développé un système assisté de recherche de texte dans une scène en construisant une interface web en complément du système de compréhension de texte. Le système peut être consulté via le lien: dinh.ubismart.org:27790. Des expériences sur diverses bases de données publiques montrent que les techniques proposées surpassent les méthodes les plus modernes de reconnaissance de textes sous différents cadres d'évaluation. Le système complet propose surpasse également d'autres systèmes complets de reconnaissance de texte et a été soumis à une compétition de lecture automatique dans laquelle il a montré sa performance et a atteint la cinquième position dans le classement (Dec-2017): http://rrc.cvc.uab.es/?ch=2&com =evaluation&task=4.