Analyse de scènes de parole multisensorielle : mise en évidence et caractérisation d'un processus de liage audiovisuel préalable à la fusion
Auteur / Autrice : | Olha Nahorna |
Direction : | Jean-Luc Schwartz, Frédéric Berthommier |
Type : | Thèse de doctorat |
Discipline(s) : | Ingenierie cognition interaction apprentissage création |
Date : | Soutenance le 02/10/2013 |
Etablissement(s) : | Grenoble |
Ecole(s) doctorale(s) : | École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images parole signal automatique (2007-....) |
Jury : | Président / Présidente : Sonia Kandel |
Examinateurs / Examinatrices : Daniel Pressnitzer | |
Rapporteur / Rapporteuse : Virginie Van Wassenhove, Cécile Colin |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Dans la parole audiovisuelle, les flux auditifs et visuels cohérents sont généralement fusionnés en un percept unifié. Il en résulte une meilleure intelligibilité dans le bruit, et cela peut induire une modification visuelle du percept auditif dans le célèbre « effet McGurk » (le montage d'un son « ba » avec une image d'un locuteur prononçant « ga » est souvent perçu comme « da »). La vision classique considère que le traitement est effectué indépendamment dans les systèmes auditif et visuel avant que l'interaction ne se produise à un certain niveau de représentation, ce qui résulte en un percept intégré. Cependant certaines données comportementales et neurophysiologiques suggèrent l'existence d'un processus à deux niveaux. Le premier niveau implique le liage des éléments d'information auditive et visuelle appropriés avant de donner naissance à un percept fusionné au second niveau. Pour démontrer l'existence de ce premier niveau, nous avons élaboré un paradigme original qui vise à tenter de « délier » ces deux flux. Notre paradigme consiste à faire précéder l'effet McGurk (indicateur de la fusion audiovisuelle) par un contexte soit cohérent soit incohérent. Dans le cas du contexte incohérent on observe une diminution significative de perception d'effet McGurk, donc une décroissance de la fusion audiovisuelle. Les différent types d'incohérence (syllabes acoustiques superposées à des phrases visuelles, modifications phonétiques ou temporelles du contenu acoustique de séquences régulières de syllabes audiovisuelles) peuvent réduire significativement l'effet McGurk. Le processus de déliage est rapide, une unique syllabe incohérente suffisant pour obtenir un résultat de déliage maximal. Par contre le processus inverse de « reliage » par un contexte cohérent suivant le déliage est progressif, puisqu'il apparaît qu'au minimum trois syllabes cohérentes sont nécessaires. Nous pouvons également geler le sujet dans son état délié en rajoutant une pause entre un contexte incohérent et l'effet McGurk. Au total 7 expériences ont été effectuées pour démontrer et décrire le processus de liage dans la parole audiovisuelle. Les données sont interprétées dans le cadre du modèle à deux niveaux « liage et fusion ».