Thèse soutenue

Reconnaissance d'objets utilisant des histogrammes multidimensionnels de champs réceptifs

FR  |  
EN
Auteur / Autrice : Bernt Schiele
Direction : James L Crowley
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1997
Etablissement(s) : Grenoble INPG
Partenaire(s) de recherche : Laboratoire : Laboratoire d’informatique graphique, vision et robotique (Grenoble1995-2007)

Résumé

FR  |  
EN

Au cours des dernières années, l'intérêt pour des algorithmes de reconnaissance fondés sur l'apparence à considérablement augmenté. Ces algorithmes utilisent directement des informations d'images. A partir des images d'objets ces approches construisent des "modèles fondés sur l'apparence", car chaque image représentée correspond à une apparence particulière d'un objet. La fiabilité, la vitesse et le taux de reconnaissance élevé de ces techniques en constituent les intérêts majeurs. Le succès de ces méthodes est considérable pour la reconnaissance de visages, dans le contexte de l'interface homme-machine et pour l'accès à des bases d'images par leurs contenus. Cette thèse propose une technique ou les objets sont représentés par des statistiques sur des opérateurs locaux et robustes. On veut montrer qu'une telle représentation fondée sur l'apparence est fiable et extrêmement discriminante pour la reconnaissance d'objets. La motivation initiale de cette étude était la reconnaissance rapide d'objets par la méthode des histogrammes de couleurs. Cette méthode utilise les statistiques de couleurs comme modèle d'objets. La première partie de la thèse généralise cette approche en modélisant des objets par les statistiques de leurs caractéristiques locales. La technique généralisée - que l'on appelle "histogrammes multidimensionnels de champs" réceptifs - permet de discriminer un grand nombre d'objets. Les faiblesses de cette approche sont liées aux "défis des modèles fondés sur l'apparence". Ces défis concernent la reconnaissance en présence d'occultation partielle, la reconnaissance d'objets 3D à partir des images 2D et la classification d'objets comme généralisation en dehors de la base d'objets. La deuxième partie de la thèse examine chacun de ces défis et propose une extension appropriée de notre technique. L'intérêt principal de cette thèse est le développement d'un modèle de représentation d'objets qui utilise les statistiques de vecteurs de champs réceptifs. Plusieurs algorithmes de l'identification et aussi de la classification d'objets sont proposés. En particulier, un algorithme probabiliste est defini : il ne dépend pas de la correspondance entre les images de test et les objets de la base de données. Des expériences obtiennent des taux de reconnaissance élevés en utilisant le modèle de représentation proposé. Dans un état de l'art on décrit brièvement des techniques qui ont étés sources d'inspiration : des techniques de histogrammes de couleurs, des algorithmes de reconnaissance fondée sur des descripteurs locaux et des approches de la représentation et reconnaissance statistique d'objet. Afin de généraliser la technique de la comparaison d'histogrammes de couleurs, des descripteurs locaux sont discutés. Différentes techniques de comparaison d'histogrammes sont proposées et leur robustesse par rapport au bruit et au changement de l'intensité d'éclairage est analysée. Dans des expérimentations de l'identification d'une centaine d'objets les différents degrés de liberté de la reconnaissance d'objets sont considérés : changements d'échelle et de la rotation d'image, variations du point de vue et occultation partielle. Un algorithme probabiliste est proposé, qui ne dépend pas de la correspondance entre les images de test et les objets de la base de données. Des expériences obtiennent des taux de reconnaissance élevés en utilisant seulement une petite partie visible d'objet. Enfin une extension de cet algorithme fondée sur une table de hachage dynamique est proposée pour la reconnaissance de plusieurs objets dans les scènes complexes. Deux algorithmes actifs de reconnaissance d'objets sont proposés. Un algorithme calcule des régions d'intérêt pour le contrôle de fixation d'une caméra en 2D. Le deuxième algorithme propose la planification de points de vue pour la reconnaissance des objets 3D à partir des apparence d'objets en 2D. Un dernier chapître propose le concept des classes visuelles définis par des similarites d'objets comme cadre général pour la classification d'objets. Une technique selon le maximum de vraisemblance est proposé pour la reconnaissance des classes visuelles et appliquée pour obtenir des images visuellement similaire d'une base d'images