Thèse soutenue

Catégorisation automatique d'images

FR  |  
EN
Auteur / Autrice : Huanzhang Fu
Direction : Liming ChenEmmanuel Dellandréa
Type : Thèse de doctorat
Discipline(s) : Informatique et Information pour la Société
Date : Soutenance le 14/12/2010
Etablissement(s) : Ecully, Ecole centrale de Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône)
Jury : Président / Présidente : Su Ruan
Rapporteurs / Rapporteuses : Georges Quénot, Chaabane Djeraba

Résumé

FR  |  
EN

Cette thèse de doctorat est consacrée à un sujet de recherche très porteur : la Catégorisation générique d’objets Visuels (VOC). En effet, les applications possibles sont très nombreuses, incluant l’indexation d’images et de vidéos, la vidéo surveillance, le contrôle d’accès de sécurité, le soutien à la conduite automobile, etc. En raison de ses nombreux verrous scientifiques, ce sujet est encore considéré comme l’un des problèmes les plus difficiles en vision par ordinateur et en reconnaissance de formes. Dans ce contexte, nous avons proposé dans ce travail de thèse plusieurs contributions, en particulier concernant les deux principaux éléments des méthodes résolvant les problèmes de VOC, notamment la sélection des descripteurs et la représentation d’images. Premièrement, un algorithme nomme "Embedded Sequential Forward feature Selection"(ESFS) a été proposé pour VOC. Son but est de sélectionner les descripteurs les plus discriminants afin d’obtenir une bonne performance pour la catégorisation. Il est principalement basé sur la méthode de recherche sous-optimale couramment utilisée "Sequential Forward Selection" (SFS), qui repose sur le principe simple d’ajouter progressivement les descripteurs les plus pertinents. Cependant, ESFS non seulement ajoute progressivement les descripteurs les plus pertinents à chaque étape mais de plus les fusionne d’une manière intégrée grâce à la notion de fonctions de masses combinées empruntée à la théorie de l’évidence qui offre également l’avantage d’obtenir un coût de calcul beaucoup plus faible que celui de SFS original. Deuxièmement, nous avons proposé deux nouvelles représentations d’images pour modéliser le contenu visuel d’une image : la Représentation d’Image basée sur la Modélisation Polynomiale et les Mesures Statistiques, appelées respectivement PMIR et SMIR. Elles permettent de surmonter l’inconvénient principal de la méthode populaire "bag of features" qui est la difficulté de fixer la taille optimale du vocabulaire visuel. Elles ont été testées avec nos descripteurs bases région ainsi que les descripteurs SIFT. Deux stratégies différentes de fusion, précoce et tardive, ont également été considérées afin de fusionner les informations venant des "canaux «différents représentés par les différents types de descripteurs. Troisièmement, nous avons proposé deux approches pour VOC en s’appuyant sur la représentation sparse. La première méthode est reconstructive (R_SROC) alors que la deuxième est reconstructive et discriminative (RD_SROC). En effet, le modèle de représentation sparse a été utilisé originalement dans le domaine du traitement du signal comme un outil puissant pour acquérir, représenter et compresser des signaux de grande dimension. Ainsi, nous avons proposé une adaptation de ces principes intéressants au problème de VOC. R_SROC repose sur l’hypothèse intuitive que l’image peut être représentée par une combinaison linéaire des images d’apprentissage de la même catégorie. [...]