Auteur / Autrice : | Vasil Khalidov |
Direction : | Stéphane Girard, Florence Forbes |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance en 2010 |
Etablissement(s) : | Grenoble |
Ecole(s) doctorale(s) : | École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble199.-....) |
Partenaire(s) de recherche : | Laboratoire : Institut national de recherche en informatique et en automatique. Centre de recherche de l'université Grenoble Alpes (France) - Laboratoire Jean Kuntzmann (Grenoble) |
Equipe de recherche : Equipe-projet Modelling and inference of complex and structured stochastic systems (Montbonnot, Isère, France ; 200.-2020) | |
Jury : | Président / Présidente : Anatoli Juditsky |
Examinateurs / Examinatrices : Radu Horaud, Christophe Collet, Jon Barker | |
Rapporteurs / Rapporteuses : Sethu Vijayakumar, Jean-Marc Odobez |
Mots clés
Mots clés contrôlés
Résumé
Dans cette thèse, nous nous intéressons à la modélisation de la perception audio-visuelle avec une tête robotique. Les problèmes associés, notamment la calibration audio-visuelle, la détection, la localisation et le suivi d'objets audio-visuels sont étudiés. Une approche spatio-temporelle de calibration d'une tête robotique est proposée, basée sur une mise en correspondance probabiliste multimodale des trajectoires. Le formalisme de modèles de mélange conjugué est introduit ainsi qu'une famille d'algorithmes d'optimisation efficaces pour effectuer le regroupement multimodal. Un cas particulier de cette famille d'algorithmes, notamment l'algorithme EM conjugue, est amélioré pour obtenir des propriétés théoriques intéressantes. Des méthodes de détection d'objets multimodaux et d'estimation du nombre d'objets sont développées et leurs propriétés théoriques sont étudiées. Enfin, la méthode de regroupement multimodal proposée est combinée avec des stratégies de détection et d'estimation du nombre d'objets ainsi qu'avec des techniques de suivi pour effectuer le suivi multimodal de plusieurs objets. La performance des méthodes est démontrée sur des données simulées et réelles issues d'une base de données de scénarios audio-visuels réalistes (base de données CAVA).