Decoding perceptual vowel epenthesis : experiments & modelling

par Adriana Guevara Rukoz

Thèse de doctorat en Sciences cognitives

Sous la direction de Emmanuel Dupoux et de Sharon Andrea Peperkamp.

Le président du jury était Christophe Pallier.

Le jury était composé de Emmanuel Dupoux, Sharon Andrea Peperkamp, Christophe Pallier, Laurent Besacier, Sophie Dufour, Paul Iverson.

Les rapporteurs étaient Laurent Besacier, Sophie Dufour.

  • Titre traduit

    Décodage de l'épenthèse vocalique perceptive : expériences & modélisation


  • Résumé

    Pourquoi des personnes ayant grandi dans des milieux linguistiques différents ne perçoivent-elles un même signal acoustique de la même manière ? Par exemple, il arrive que des auditeurs rapportent avoir entendu des voyelles non présentes dans l'acoustique de mots non-natifs, lorsque ceux-ci ne se conforment pas aux structures sonores permises dans leur langue (épenthèse vocalique perceptive). L'identité de la voyelle épenthétique varie en fonction des langues, mais aussi parmi les langues elles-mêmes. À quel point ce processus est-il dirigé par des informations directement accessibles dans le signal acoustique ? Quelle est la part de contribution de la phonologie native ? Comment sont combinés ces deux éléments lors du calcul du percept ? Deux familles principales de théories ont été proposées : les théories à deux étapes, et les théories à une étape. Les premières proposent une analyse initiale des catégories phonétiques, suivie de réparations faites par une grammaire abstraite. De leur côté, les théories à une étape proposent que tous les facteurs acoustiques, phonétiques, et phonologiques sont intégrés simultanément de manière probabiliste. Dans cette thèse, nous combinons expériences et de modélisation, afin d'évaluer si l'épenthèse est un processus à une ou deux étapes. En particulier, nous examinons ceci en mesurant le rôle des détails acoustiques dans les modulations de l'identité de la voyelle épenthétique. Dans un premier temps, des résultats d'expériences nous montrent que ces modulations sont influencées aussi bien par les détails acoustiques que par des processus phonologiques. Cependant, la plupart de la variation de l'identité de la voyelle épenthétique est expliquée par l'acoustique. De plus, nous présentons un modèle de perception à une étape qui utilise des exemplaires ; celui-ci est capable de reproduire les effets de la coarticulation qui ont été relevés dans les données expérimentales. Ces résultats constituent de l'évidence en faveur des modèles de perception étrangère à une étape. Dans un deuxième temps, nous présentons une implémentation du modèle à une étape proposé par Wilson et al. (2013), en utilisant des modèles HMM-GMM, issus du milieu de la reconnaissance automatique de la parole (RAP). Ces modèles se composent d'un modèle acoustique et d'un modèle de langage, qui déterminent la correspondence acoustique et phonotactique entre la parole et des transcriptions possibles, respectivement. Il nous est alors possible de les ajuster indépendamment afin d'évaluer leur influence relative dans l'épenthèse vocalique perceptuelle. Nous proposons une nouvelle manière d'utiliser ces modèles pour simuler des paradigmes de choix forcés utilisés pour étudier l'épenthèse vocalique chez des participants humains, en utilisant des modèles de langage contraints lors du processus de décodage de la parole. D’abord, nous utilisons cette nouvelle méthode afin de tester si des systèmes de RAP avec des modèles de langage à phonotactique à textit{n}-grammes donnent des résultats plus proches des résultats humains qu'un système de RAP avec un modèle de langage nul. De manière étonnante, les résultats montrent que le système à modèle de langage nul prédit le mieux la performance des participants. Puis, nous évaluons si certains effets traditionnellement attribués à des processus phonologiques peuvent être expliqués par l'acoustique. Bien que les résultats soient prometteurs, nos modèles ne sont capables de reproduire qu'une sous-partie des effets observés chez l'humain. Avant de pouvoir attribuer l'origine de ces effets à des processus phonologiques, il est nécessaire de tester des systèmes de RAP avec des modèles acoustiques plus performants. Nous énumérons des futures pistes de recherche d'utilisation de modèles améliorés, et nous soulignons les avantages de l'utilisation conjointe d'expériences comportementales et modélisations computationnelles afin d'élucider les mécanismes de la perception de la parole étrangère.


  • Résumé

    Why do people of different linguistic background sometimes perceive the same acoustic signal differently? For instance, when hearing nonnative speech that does not conform to sound structures allowed in their native language, listeners may report hearing vowels that are not acoustically present. This phenomenon, known as perceptual vowel epenthesis, has been attested in various languages such as Japanese, Brazilian Portuguese, Korean, and English. The quality of the epenthesized vowel varies between languages, but also within languages, given certain phonemic environments. How much of this process is guided by information directly accessible in the acoustic signal? What is the contribution of the native phonology? How are these two elements combined when computing the native percept? Two main families of theories have been proposed as explanations: two-step and one-step theories. The former advocate an initial parsing of the phonetic categories, followed by repairs by an abstract grammar (e.g., epenthesis), while one-step proposals posit that all acoustic, phonetic, and phonological factors are integrated simultaneously in a probabilistic manner, in order to find the optimal percept. In this dissertation, we use a combination of experimental and modelling approaches in order to evaluate whether perceptual vowel epenthesis is a two-step or one-step process. In particular, we investigate this by assessing the role of acoustic details in modulations of epenthetic vowel quality. In a first part, results from two behavioural experiments show that these modulations are influenced by acoustic cues as well as phonology; however, the former explain most of the variation in epenthetic vowel responses. Additionally, we present a one-step exemplar-based model of perception that is able to reproduce coarticulation effects observed in human data. These results constitute evidence for one-step models of nonnative speech perception. In a second part, we present an implementation of the one-step proposal in Wilson et al. (2013) using HMM-GMM (hidden Markov models with Gaussian mixture models) from the field of automatic speech recognition. These models present two separate components, determining the acoustic and phonotactic matches between speech and possible transcriptions. We can thus tweak them independently in order to evaluate the relative influence of acoustic/phonetic and phonological factors in perceptual vowel epenthesis. We propose a novel way to simulate with these models the forced choice paradigm used to probe vowel epenthesis in human participants, using constrained language models during the speech decoding process. In a first set of studies, we use this method to test whether various ASR systems with textit{n}-gram phonotactics as their language model better approximate human results than an ASR system with a null (i.e., no phonotactics) language model. Surprisingly, we find that this null model was the best predictor of human performance.In a second set of studies, we evaluate whether effects traditionally attributed to phonology may be predictable solely from acoustic match. We find that, while promising, our models are only able to partially reproduce some effects observed in results from human experiments. Before attributing the source of these effects to phonology, it is necessary to test ASR systems with more performant acoustic models. We discuss future avenues for using enhanced models, and highlight the advantages of using a hybrid approach with behavioural experiments and computational modelling in order to elucidate the mechanisms underlying nonnative speech perception.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Paris Sciences et Lettres. Thèses électroniques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.