Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle
Auteur / Autrice : | Naty Sidaty |
Direction : | Abdelhakim Saadane, Mohamed-Chaker Larabi |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement du signal et des images |
Date : | Soutenance le 11/12/2015 |
Etablissement(s) : | Poitiers |
Ecole(s) doctorale(s) : | École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018) |
Partenaire(s) de recherche : | Laboratoire : Signal, Image, Communication |
faculte : Université de Poitiers. UFR des sciences fondamentales et appliquées | |
Jury : | Président / Présidente : Christine Fernandez-Maloigne |
Examinateurs / Examinatrices : Abdelhakim Saadane, Mohamed-Chaker Larabi, Ahmed Bouridane | |
Rapporteurs / Rapporteuses : Christophe Charrier, Frédéric Morain-Nicolier |
Mots clés
Résumé
Les données audiovisuelles font partie de notre quotidien que ce soit pour des besoins professionnels ou tout simplement pour le loisir. Les quantités pléthoriques de ces données imposent un recours à la compression pour le stockage ou la diffusion, ce qui peut altérer la qualité audio-visuelle si les aspects perceptuels ne sont pas pris en compte. L’état de l’art sur la saillance et la qualité est très riche, ignorant souvent l’existence de la composante audio qui a un rôle important dans le parcours visuel et la qualité de l’expérience. Cette thèse a pour objectif de contribuer à combler le manque d’approches multimodales et ce, en suivant une démarche expérimentale dédiée. Les travaux associés se déclinent en deux parties : l’attention audiovisuelle et la qualité multimodale. Tout d'abord, afin de comprendre et d’analyser l’influence de l’audio sur les mouvements oculaires humains, nous avons mené une expérimentation oculométriques impliquant un panel d’observateurs, et exploitant une base de vidéos construite pour ce contexte. L'importance des visages a ainsi été confortée mais en particulier pour les visages parlants qui ont une saillance accrue. Sur la base de ces résultats, nous avons proposé un modèle de saillance audiovisuelle basé sur la détection des locuteurs dans la vidéo et exploitant les informations de bas niveau spatiales et temporelles. Par la suite, nous avons étudié l’influence de l’audio sur la qualité multimodale et multi-supports. A cette fin, des campagnes d’évaluations psychovisuelles ont été menées dans l’optique de quantifier la qualité multimodale pour des applications de streaming vidéo où différents dispositifs de visualisation sont utilisés.