Opérateurs LoG temps-réel pour la détection de texte
Auteur / Autrice : | Dinh Cong Nguyen |
Direction : | Donatello Conte, Mathieu Delalandre, The Anh Pham |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 26/03/2020 |
Etablissement(s) : | Tours |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes (Centre-Val de Loire ; 2012-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique Fondamentale et Appliquée de Tours (2012-...) |
Jury : | Président / Présidente : Véronique Eglin |
Rapporteur / Rapporteuse : Basilis Gatos, Jean-Christophe Burie |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
La détection de texte dans des images de scène naturelle est un problème clé dans les domaines du traitement d'image et de la reconnaissance de forme. Les systèmes et algorithmes de détection doivent tout d'abord gérer la typologie des caractères ainsi que leur déformation. Cependant, il faut aussi considérer la dimension temps-réel des traitements qui vise à respecter une date butoir. Le composant clé de tout système de traitement d'image temps-réel est l'opérateur local. Ce dernier permet de détecter des éléments d'intérêt dans les images à un très bas cout algorithmique tout en respectant des temps de traitement quasi-constant. Dans cette thèse, nous intéressons en particulier à l'opérateur Laplacien de Gaussienne avec une implémentation temps-réel. Ce dernier est désigné comme l'opérateur RT-LoG dans la littérature. Deux parties sont discutées dans la thèse. La première partie I de la thèse introduit les opérateurs dérivatifs, ou linéaires, connus pour leur très faible coût algorithmique. La contrainte temps-réel implique une reformulation complète des opérateurs. Les opérateurs doivent être aussi adaptés au problème de détection de texte. Pour ce faire, la solution majoritairement mise en œuvre dans la littérature est de modéliser les opérateurs à partir d'une fonction de Laplacien de Gaussienne. L'opérateur est finalement rendu invariant au travers de sa représentation en échelle. La partie II de la thèse présente une évaluation de performance de l'opérateur RT-LoG pour la détection de texte. L'opérateur apparait comme le plus rapide des opérateurs robustes de la littérature. Il garantit une approximation quasi-exacte de l'opérateur LoG. Il reste cependant, tout comme l'opérateur LoG, sensible aux variations de contraste. Il permet d'atteindre des performances de 20 FPS sur des vidéos en haute résolution à partir d'un CPU en architecture standard. Finalement, l'opérateur fournit en sortie des caractéristiques permettant d'apprécier l'échelle et le contraste des éléments d'intérêt détectés dans l'image. Un système deux-temps est ensuite proposé. Ce système se base sur une méthode optimisée de regroupement de points d'intérêt dédiée à l'opérateur RT-LoG. Cette méthode de regroupement hérite par extension des propriétés de l'opérateur RT-LoG. Elle est quasi invariante à l'échelle et au contraste. Un réseau neuronal convolutif est utilisé en dernière brique pour la vérification du texte. Le système proposé est compétitif avec les systèmes les plus robustes de la littérature tout en requérant une architecture matérielle 10 à 100 fois moins performante. En dernière contribution, une nouvel opérateur RT-LoG optimisé est proposé. Cet opérateur RT-LoG utilise une approche en deux temps pour la sélection des filtres de convolution dans le domaine spatial et en échelle. Il se présente comme l'opérateur temps-réel le plus performant de la littérature pour la détection de texte sous contraintes de précision et de temps de traitement. Il est en moyenne trois fois plus rapide que l'opérateur RT-LoG de base. Il atteint des performances de 30 FPS sur des vidéos en quatre fois haute résolution à partir d'un CPU en architecture standard. Une fois intégré au sein du système deux-temps, l'opérateur RT-LoG optimisé garantit des performances de détection quasi non altérées et un facteur d'accélération de deux du système.