Thèse soutenue

Modèle computationnel d'attention pour la vision adaptative

FR  |  
EN
Auteur / Autrice : Matthieu Perreira da Silva
Direction : Pascal Estraillier
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 10/12/2010
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : Sciences et Ingénierie pour l'Information
Jury : Président / Présidente : Anne Guérin-Dugué
Examinateurs / Examinatrices : Pascal Estraillier, Anne Guérin-Dugué, Hervé Glotin, Laurent Itti, Vincent Courboulay, Olivier Le Meur
Rapporteur / Rapporteuse : Hervé Glotin, Laurent Itti

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'analyse temps réel de la masse de données générée par les mécanismes de gestion de la vision dans les applications interactives est un problème toujours ouvert, promettant des avancées importantes dans des domaines aussi variés que la robotique, l’apprentissage à distance ou les nouvelles formes d’interactions avec l’utilisateur, sans clavier ni souris. Dans le cadre général de la vision, les algorithmes d’analyse de scène doivent trouver un compromis entre d'une part la qualité des résultats recherchés et d'autre part la quantité de ressources allouable aux différents tâches. Classiquement, ce choix est effectué à la conception du système (sous la forme de paramètres et d’algorithmes prédéfinis), mais cette solution limite le champ d’application de celui-ci. Une solution plus flexible consiste à utiliser un système de vision adaptatif qui pourra modifier sa stratégie d’analyse en fonction des informations disponibles concernant son contexte d’exécution. En conséquence, ce système doit posséder un mécanisme permettant de guider rapidement et efficacement l’exploration de la scène afin d’obtenir ces informations. Chez l’homme, les mécanismes de l’évolution ont mis en place le système d’attention visuelle. Ce système sélectionne les informations importantes afin de réduire la charge cognitive et les ambiguïtés d’interprétation de la scène. Nous proposons, dans cette thèse, un système d'attention visuelle, dont nous définissons l’architecture et les principes de fonctionnement. Ce dernier devra permettre l’interaction avec un système de vision afin qu’il adapte ses traitements en fonction de l’intérêt de chacun des éléments de la scène, i.e. ce que nous appelons saillance. A la croisée des chemins entre les modèles centralisés et hiérarchiques (ex : [Koch1985], puis [Itti1998]), et les modèles distribués et compétitifs (ex : [Desimone1995], puis [Deco2004, Rolls2006]), nous proposons un modèle hiérarchique, compétitif et non centralisé. Cette approche originale permet de générer un point de focalisation attentionnel à chaque pas de temps sans utiliser de carte de saillance ni de mécanisme explicite d’inhibition de retour. Ce nouveau modèle computationnel d'attention visuelle temps réel est basé sur un système d'équations proies / prédateurs, qui est bien adapté pour l'arbitrage entre un comportement attentionnel non déterministe et des propriétés de stabilité, reproductibilité, et réactivité. L'analyse des expérimentations menées est positive : malgré le comportement non-déterministe des équations proies / prédateurs, ce système possède des propriétés intéressantes de stabilité, reproductibilité, et réactivité, tout en permettant une exploration rapide et efficace de la scène. Ces propriétés ouvrent la possibilité d’aborder différents types d’applications allant de l’évaluation de la complexité d’images et de vidéos à la détection et au suivi d’objets. Enfin, bien qu’il soit destiné à la vision par ordinateur, nous comparons notre modèle au système attentionnel humain et montrons que celui-ci présente un comportement aussi plausible (voire plus en fonction du comportement défini) que les modèles classiques existants.