Thèse soutenue

FR
Auteur / Autrice : Josip Krapac
Direction : Frédéric Jurie
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance en 2011
Etablissement(s) : Caen

Résumé

FR  |  
EN

La représentation des images en vue de leur traitement est une question fondamentale de la vision par ordinateur. Les contributions proposées dans cette thèse étendent le modèle de représentation par sac-de-mots pour les tâches de recherche et de classification d’images. La première des tâches abordées est celle de la recherche d’images. L’idée est de reclasser les images fournies par un moteur de recherche utilisant des requêtes textuelles. La représentation de l'image développée ici utilise non seulement le contenu visuel de l'image, mais aussi la requête de texte utilisée pour le récupérer. Cela permet l'apprentissage d'un modèle de pertinence unique qui peut être utilisé ultérieurement pour réordonner les images de nouvelles requêtes. Ce modèle donne de meilleurs résultats que les modèles appris spécifiquement pour chaque requête [Schroff et al. , 2007], qui nécessitent pourtant des calculs plus complexes. Ensuite, nous proposons une représentation d'image spécifique aux classes, basée sur un quantifieur en arbre, spécialisée pour la tâche de classification d'image. Par opposition à [Moosmann et al. , 2008] qui construisent une forêt aléatoire avec l’objectif d’optimiser la classification de régions de l'image, notre construction est guidée par l’optimisation directe de la performance de classification des images elles-mêmes. Il en résulte une représentation des images très compacte, rapide à créer et qui donnant d'excellents résultats même en utilisant de simples classifieurs linéaires. Notre dernière contribution est une nouvelle représentation permettant le codage spatial des images. Nous utilisons des Fisher Kernels pour représenter la répartition des zones d'image attribuées à un mot visuel. Cette représentation est beaucoup plus compacte que les pyramides spatiales de [Lazebnik et al. , 2007], tout en obtenant le même niveau de performance, voir même en le dépassant.