Vers un système indiquant la distance d'un locuteur par transformation de sa voix
Auteur / Autrice : | Thibaut Fux |
Direction : | Gang Feng, Véronique Zimpfer |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, image, parole, télécoms |
Date : | Soutenance le 24/05/2012 |
Etablissement(s) : | Grenoble |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images parole signal automatique (2007-....) |
Jury : | Président / Présidente : Pierre-Yves Coulon |
Examinateurs / Examinatrices : Olivier Rosec | |
Rapporteur / Rapporteuse : Olivier Boëffard, Jean-Sylvain Liénard |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse porte sur la transformation de la voix d’un locuteur dans l’objectif d’indiquer la distance de celui-ci : une transformation en voix chuchotée pour indiquer une distance proche et une transformation en voix criée pour une distance plutôt éloignée. Nous effectuons dans un premier temps des analyses approfondies pour déterminer les paramètres les plus pertinentes dans une voix chuchotée et surtout dans une voix criée (beaucoup plus difficile). La contribution principale de cette partie est de montrer la pertinence des paramètres prosodiques dans la perception de l’effort vocal dans une voix criée. Nous proposons ensuite des descripteurs permettant de mieux caractériser les contours prosodiques. Pour la transformation proprement dite, nous proposons plusieurs nouvelles règles de transformation qui contrôlent de manière primordiale la qualité des voix transformées. Les résultats ont montré une très bonne qualité des voix chuchotées transformées ainsi que pour des voix criées pour des structures linguistiques relativement simples (CVC, CVCV, etc.).