Dealing with acoustical variability in speech at birth

par Cécile Issard

Thèse de doctorat en Neurosciences cognitives

Sous la direction de Judit Gervain.

Soutenue le 29-11-2018

à Sorbonne Paris Cité , dans le cadre de École doctorale Cognition, comportements, conduites humaines (Boulogne-Billancourt, Hauts-de-Seine) , en partenariat avec Université Paris Descartes (1970-2019) (établissement de préparation) et de Laboratoire Psychologie de la Perception / LPP - UMR 8242 (laboratoire) .

Le président du jury était Arlette Streri.

Le jury était composé de Judit Gervain, Arlette Streri, Fabrice Wallois, Anne-Lise Giraud, Gábor Háden.

Les rapporteurs étaient Fabrice Wallois, Anne-Lise Giraud.

  • Titre traduit

    Construction d'une représentation stable de la parole chez le nouveau-né humain


  • Résumé

    Nous avons tous une voix différente, nos intonations changent tout le temps et nous avons peut-être un accent étranger, mais nous percevons toujours les mêmes syllabes et les mêmes mots. De même, les nourrissons apprennent leur langue maternelle à partir de divers locuteurs qui parlent à des vitesses et avec des intonations variables. Par conséquent, une question clé est de savoir comment les humains parviennent à extraire ces représentations invariantes des sons de la parole dès le début de leur vie. Cette thèse vise à éclairer la manière dont ces représentations stables de la parole sont construites chez le nouveau-nés humain. Dans une première expérience, nous avons présenté de la parole normale, modérément (60% de la durée initiale) ou fortement compressé (30% de la durée initiale) dans la langue maternelle des participants. Nous avons enregistré la réponse hémodynamique à ces stimuli dans les cortex frontal, temporal et pariétal en utilisant la NIRS. Les résultats ne montrent pas de différence de réponse entre la parole compressée normale et 60%, mais des réponses différentes entre la parole normale et la parole compressée à 30% d'une part, et entre la parole compressée 60 % et à 30 % d'autre part dans un ensemble de régions frontales, temporales et temporo-pariétales. Ces résultats montrent que le cerveau du nouveau-né répond de manière stable à la parole sur une gamme d'échelles temporelles, comme ce qui a été observé chez l'adulte. Dans une deuxième série d'expériences, nous nous sommes demandé si cette capacité repose sur l'expérience prénatale avec la structure rythmique de la langue maternelle. Nous avons reproduit la même expérience dans deux langues inconnues, une rythmiquement similaire (l'espagnol) et une autre rythmiquement différente de la langue maternelle (l'anglais). Aucune différence entre les trois taux de compression n'a été observée en espagnol. En anglais, seule la parole fortement compressée évoquait des réponses significatives dans une région temporo-pariétale également activée pour le français. Cela confirme que la parole fortement compressée est traitée de façon différente par le cerveau du nouveau-né. Cela montre également que l'expérience prénatale façonne le traitement auditif de la parole à la naissance. En particulier, l'expérience prénatale de la structure prosodique ou phonologique de la langue maternelle contribue à encoder la parole de manière stable, potentiellement en aidant les nourrissons à placer des repères dans le signal. Pour conclure, les résultats présentés dans cette thèse soutiennent l'idée que la parole est encodée comme un objet auditif abstrait, dès les étapes de traitement auditif. Ce code est par la suite modulé par les étapes de traitement linguistique, intégrant les connaissances du sujet sur sa langue maternelle. Ces connaissances sont acquises dès la vie intra-utérine, permettant dès la naissance d'encoder la parole de façon robuste et adaptée à l'environnement linguistique.


  • Résumé

    We all have a different voice, our intonations change all the time, and we might have a foreign accent, but we still perceive the same syllables and the same words. Similarly, infants learn their native language from various speakers who speak with different speech rates and intonations from moment to moment. Therefore a key question is how humans manage to extract these invariant representations of speech sounds from the beginning of their life. The present thesis aims to enlighten how these invariant representations of speech are built in human newborns. In a first experiment, we presented normal speech as well as moderately (60% of initial duration) or highly compressed (30% of its initial duration) speech in the participants' native language (French). We recorded the hemodynamic response to these stimuli over the frontal, temporal and parietal cortices using NIRS. The results show no difference between normal and 60%-compressed speech, but differential responses between normal and 30%-compressed speech on the one hand, and 60% and 30%-compressed speech in a set of frontal, temporal, and temporo-parietal regions on the other hand. This provides evidence that the newborn brain responds to speech in a stable manner over a range of time-scales that is similar to adults. In a second set of experiments, we asked whether this ability relies on prenatal experience with the native language rhythmic structure. We replicated the same experiment in two unfamiliar languages, one that is rythmically similar (Spanish), and one that is rhythmically different from the native language (English). No difference between the three compression rates was observed in Spanish. In English, only 30%-compressed speech evoked significant responses in a temporo-parietal region also activated for French. This confirms that 30%-compressed speech This also shows that prenatal experience shapes auditory processing of speech at birth. In particular, prenatal experience with the prosodic or phonological structure of the language might also contribute to encode speech in a stable way, helping infants to place landmarks in the signal. To conclude, the results presented in this thesis support the idea that speech is encoded as an abstract auditory object from the first stages of auditory processing. This auditory code is further modulated by higher level linguistic processing, integrating knowledge about the subject's native language. This knowledge is acquired from intra-uterine life, enabling a stable encoding of speech, adapted to the subject's linguistic environment readily from birth.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Cité - Bibliothèque électronique. Direction générale déléguée aux bibliothèques et musées. Bibliothèque électronique (Descartes).
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.