Thèse soutenue

FR
Auteur / Autrice : Vasil Khalidov
Direction : Stéphane GirardFlorence Forbes
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance en 2010
Etablissement(s) : Grenoble
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble199.-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique. Centre de recherche de l'université Grenoble Alpes (France) - Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Equipe-projet Modelling and inference of complex and structured stochastic systems (Montbonnot, Isère, France ; 200.-2020)
Jury : Président / Présidente : Anatoli Juditsky
Examinateurs / Examinatrices : Radu Horaud, Christophe Collet, Jon Barker
Rapporteurs / Rapporteuses : Sethu Vijayakumar, Jean-Marc Odobez

Résumé

FR  |  
EN

Dans cette thèse, nous nous intéressons à la modélisation de la perception audio-visuelle avec une tête robotique. Les problèmes associés, notamment la calibration audio-visuelle, la détection, la localisation et le suivi d'objets audio-visuels sont étudiés. Une approche spatio-temporelle de calibration d'une tête robotique est proposée, basée sur une mise en correspondance probabiliste multimodale des trajectoires. Le formalisme de modèles de mélange conjugué est introduit ainsi qu'une famille d'algorithmes d'optimisation efficaces pour effectuer le regroupement multimodal. Un cas particulier de cette famille d'algorithmes, notamment l'algorithme EM conjugue, est amélioré pour obtenir des propriétés théoriques intéressantes. Des méthodes de détection d'objets multimodaux et d'estimation du nombre d'objets sont développées et leurs propriétés théoriques sont étudiées. Enfin, la méthode de regroupement multimodal proposée est combinée avec des stratégies de détection et d'estimation du nombre d'objets ainsi qu'avec des techniques de suivi pour effectuer le suivi multimodal de plusieurs objets. La performance des méthodes est démontrée sur des données simulées et réelles issues d'une base de données de scénarios audio-visuels réalistes (base de données CAVA).