Vers un système perceptuel de reconnaissance d'objets

par Dounia Awad

Thèse de doctorat en Informatique et applications

Sous la direction de Arnaud Revel.

Le président du jury était Matei Mancas.

Le jury était composé de Arnaud Revel, Matei Mancas, Frédéric Precioso, Bernard Girau, Matthieu Cord, Vincent Courboulay.

Les rapporteurs étaient Frédéric Precioso, Bernard Girau.


  • Résumé

    Cette thèse a pour objectif de proposer un système de reconnaissance d’images utilisant des informations attentionnelles. Nous nous intéressons à la capacité d’une telle approche à améliorer la complexité en temps de calcul et en utilisation mémoire pour la reconnaissance d’objets. Dans un premier temps, nous avons proposé d’utiliser un système d’attention visuelle comme filtre pour réduire le nombre de points d’intérêt générés par les détecteurs traditionnels [Awad 12]. En utilisant l’architecture attentionnelle proposée par Perreira da Silva comme filtre [Awad 12] sur la base d’images de VOC 2005, nous avons montré qu’un filtrage de 60% des points d’intérêt (extraits par Harris-Laplace et Laplacien) ne fait diminuer que légèrement la performance d’un système de reconnaissance d’objets (différence moyenne de AUC ~ 1%) alors que le gain en complexité est important (40% de gain en vitesse de calcul et 60% en complexité). Par la suite, nous avons proposé un descripteur hybride perceptuel-texture [Awad 14] qui caractérise les informations fréquentielles de certaines caractéristiques considérées comme perceptuellement intéressantes dans le domaine de l’attention visuelle, comme la couleur, le contraste ou l’orientation. Notre descripteur a l’avantage de fournir des vecteurs de caractéristiques ayant une dimension deux fois moindre que celle des descripteurs proposés dans l’état de l’art. L’expérimentation de ce descripteur sur un système de reconnaissance d’objets (le détecteur restant SIFT), sur la base d’images de VOC 2007, a montré une légère baisse de performance (différence moyenne de précision ~5%) par rapport à l’algorithme original, basé sur SIFT mais gain de 50% en complexité. Pour aller encore plus loin, nous avons proposé une autre expérimentation permettant de tester l’efficacité globale de notre descripteur en utilisant cette fois le système d’attention visuelle comme détecteur des points d’intérêt sur la base d’images de VOC 2005. Là encore, le système n’a montré qu’une légère baisse de performance (différence moyenne de précision ~3%) alors que la complexité est réduite de manière drastique (environ 50% de gain en temps de calcul et 70% en complexité).

  • Titre traduit

    Towards perceptual content based image retrieval


  • Résumé

    The main objective of this thesis is to propose a pipeline for an object recognition algorithm, near to human perception, and at the same time, address the problems of Content Based image retrieval (CBIR) algorithm complexity : query run time and memory allocation. In this context, we propose a filter based on visual attention system to select salient points according to human interests from the interest points extracted by a traditionnal interest points detectors. The test of our approach, using Perreira Da Silva’s system as filter, on VOC 2005 databases, demonstrated that we can maintain approximately the same performance of a object recognition system by selecting only 40% of interest points (extracted by Harris-Laplace and Laplacian), while having an important gain in complexity (40% gain in query-run time and 60% in complexity). Furthermore, we address the problem of high dimensionality of descriptor in object recognition system. We proposed a new hybrid texture descriptor, representing the spatial frequency of some perceptual features extracted by a visual attention system. This descriptor has the advantage of being lower dimension vs. traditional descriptors. Evaluating our descriptor with an object recognition system (interest points detectors are Harris-Laplace & Laplacian) on VOC 2007 databases showed a slightly decrease in the performance (with 5% loss in Average Precision) compared to the original system, based on SIFT descriptor (with 50% complexity gain). In addition, we evaluated our descriptor using a visual attention system as interest point detector, on VOC 2005 databases. The experiment showed a slightly decrease in performance (with 3% loss in performance), meanwhile we reduced drastically the complexity of the system (with 50% gain in run-query time and 70% in complexity).


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de La Rochelle. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.