Search-based automatic image annotation using geotagged community photos

par Hatem Mousselly Sergieh

Thèse de doctorat en Informatique

Sous la direction de Jean-Marie Pinon et de Harald Kosch.

Soutenue le 26-09-2014

à Lyon, INSA en cotutelle avec l'Universität Passau , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon , en partenariat avec LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône) (laboratoire) et de Laboratoire d'InfoRmatique en Images et Systèmes d'Information / LIRIS (laboratoire) .

Le président du jury était Günther Specht.

Le jury était composé de Jean-Marie Pinon, Harald Kosch, Günther Specht, Catherine Berrut, Jacques Savoy, Olivier Amft, Vincent Charvillat, Mario Döller, Elöd Egyed-Zsigmond.

Les rapporteurs étaient Catherine Berrut, Jacques Savoy.

  • Titre traduit

    Recherche basée sur l’annotation automatique des images à l'aide de photos collaboratives géolocalisées


  • Résumé

    La technologie Web 2.0 a donné lieu à un large éventail de plates-formes de partage de photos. Il est désormais possible d’annoter des images de manière collaborative, au moyen de mots-clés; ce qui permet une gestion et une recherche efficace de ces images. Toutefois, l’annotation manuelle est laborieuse et chronophage. Au cours des dernières années, le nombre grandissant de photos annotées accessibles sur le Web a permis d'expérimenter de nouvelles méthodes d'annotation automatique d'images. L'idée est d’identifier, dans le cas d’une photo non annotée, un ensemble d'images visuellement similaires et, a fortiori, leurs mots-clés, fournis par la communauté. Il existe actuellement un nombre considérable de photos associées à des informations de localisation, c'est-à-dire géo-localisées. Nous exploiterons, dans le cadre de cette thèse, ces informations et proposerons une nouvelle approche pour l'annotation automatique d'images géo-localisées. Notre objectif est de répondre aux principales limites des approches de l'état de l'art, particulièrement concernant la qualité des annotations produites ainsi que la rapidité du processus d'annotation. Tout d'abord, nous présenterons une méthode de collecte de données annotées à partir du Web, en se basant sur la localisation des photos et les liens sociaux entre leurs auteurs. Par la suite, nous proposerons une nouvelle approche afin de résoudre l’ambiguïté propre aux tags d’utilisateurs, le tout afin d’assurer la qualité des annotations. L'approche démontre l'efficacité de l'algorithme de recherche de caractéristiques discriminantes, dit de Laplace, dans le but d’améliorer la représentation de l'annotation. En outre, une nouvelle mesure de distance entre mots-clés sera présentée, qui étend la divergence de Jensen-Shannon en tenant compte des fluctuations statistiques. Dans le but d'identifier efficacement les images visuellement proches, la thèse étend sur deux point l'algorithme d'état de l'art en comparaison d'images, appelé SURF (Speeded-Up Robust Features). Premièrement, nous présenterons une solution pour filtrer les points-clés SURF les plus significatifs, au moyen de techniques de classification, ce qui accélère l'exécution de l'algorithme. Deuxièmement, la précision du SURF sera améliorée, grâce à une comparaison itérative des images. Nous proposerons une un modèle statistique pour classer les annotations récupérées selon leur pertinence du point de vue de l'image-cible. Ce modèle combine différents critères, il est centré sur la règle de Bayes. Enfin, l'efficacité de l'approche d'annotation ainsi que celle des contributions individuelles sera démontrée expérimentalement.


  • Résumé

    In the Web 2.0 era, platforms for sharing and collaboratively annotating images with keywords, called tags, became very popular. Tags are a powerful means for organizing and retrieving photos. However, manual tagging is time consuming. Recently, the sheer amount of user-tagged photos available on the Web encouraged researchers to explore new techniques for automatic image annotation. The idea is to annotate an unlabeled image by propagating the labels of community photos that are visually similar to it. Most recently, an ever increasing amount of community photos is also associated with location information, i.e., geotagged. In this thesis, we aim at exploiting the location context and propose an approach for automatically annotating geotagged photos. Our objective is to address the main limitations of state-of-the-art approaches in terms of the quality of the produced tags and the speed of the complete annotation process. To achieve these goals, we, first, deal with the problem of collecting images with the associated metadata from online repositories. Accordingly, we introduce a strategy for data crawling that takes advantage of location information and the social relationships among the contributors of the photos. To improve the quality of the collected user-tags, we present a method for resolving their ambiguity based on tag relatedness information. In this respect, we propose an approach for representing tags as probability distributions based on the algorithm of Laplacian Score feature selection. Furthermore, we propose a new metric for calculating the distance between tag probability distributions by extending Jensen-Shannon Divergence to account for statistical fluctuations. To efficiently identify the visual neighbors, the thesis introduces two extensions to the state-of-the-art image matching algorithm, known as Speeded Up Robust Features (SURF). To speed up the matching, we present a solution for reducing the number of compared SURF descriptors based on classification techniques, while the accuracy of SURF is improved through an efficient method for iterative image matching. Furthermore, we propose a statistical model for ranking the mined annotations according to their relevance to the target image. This is achieved by combining multi-modal information in a statistical framework based on Bayes' Rule. Finally, the effectiveness of each of mentioned contributions as well as the complete automatic annotation process are evaluated experimentally.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc’INSA. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.