Paramètres spectraux à LPC Paramètres Mapping : approches multi-linéaires et GMM (appliqué aux voyelles françaises)

Zuheng Ming

Résumé

Cued Speech (CS) is a visual communication system that uses hand shapes placed in different positions near the face, in combination with the natural speech lip-reading, to enhance speech perception from visual input for deaf people. However one of the important challenges is the question of speech communication between normal hearing people who do not practice CS but produce acoustic speech and deaf people who use lip-reading complemented by CS code for speech perception with no residual audition. In our work, we apply the multi-linear regression approach (MLR) and Gaussian Mixture Model (GMM)-based mapping approach to map acoustic spectral parameters to the hand position in CS and the accompanying lip shape. We hence contributed to the development of automatic translation system in the framework of visual speech synthesis. It proves that the MLR approach is good for estimating the lip parameters from the spectral parameters since there is strong linear correlation between the lip parameters and spectral parameters. However, the performance of MLR approach for estimating the hand position is poor since there is no relationship between the hand positions and spectral parameters. By introducing an intermediate space, it proves that the similar topology structure is the key of the MLR. In order to release the linear constraint of the MLR approach, we apply the GMM-based mapping approach which has both the classification-partition and regression properties. The parameters of GMM are estimated by the supervised, unsupervised and semi-supervised training methods separately in the view of the machine learning theory. The supervised training method shows high efficiency and good robustness. The Minimum Mean Square Error (MMSE) and Maximum A Posteriori Probability (MAP) are used as regression criteria separately in GMM-based mapping approach. It proves that the MLR approach is a special case of GMM-based mapping approach when the number of the Gaussians equals to one. Thus the GMM-based mapping approach can improve the performance significantly in comparison with the MLR by increasing the number of the Gaussians. Finally, a continuous transition achieved by the linear interpolation in the acoustic space is introduced to compare the different mapping approaches used in this work. It shows that the GMM-based mapping approach can perform well thanks to the classification-partitioning property when the source and target data has “no relationship” such as the case of the hand position estimation; and it can also improve the performance by the local regression property when the source and target data has strong correlation such as the case of the lip parameter estimation. Besides, a direct prediction of lip geometry features from the natural image of mouth region-of-interest (ROI) based on the 2D Discrete Cosine Transform (DCT) combined with a Principal Component Analysis (PCA) is proposed. The results show the possibility to estimate the geometric lip features with good accuracy using a reduced set of predictors derived from the DCT coefficients.

Le langage parlé complété (LPC) est un système de communication visuel qui utilise des formes de main placés dans différentes positions près du visage, en combinaison avec le discours de la lecture labiale naturel, pour améliorer la perception de la parole à partir de l'entrée visuelle pour les personnes sourdes. Cependant l'un des défis importants est la question de la communication de la parole entre les personnes normo-entendant qui ne pratiquent pas LPC mais produisent discours acoustique et les personnes sourdes qui utilisent la lecture labiale complété par code LPC pour la perception de la parole sans audition résiduelle. Dans notre travail, nous appliquons la méthode de régression linéaire multiple (MLR) et modèle gaussien de mélange (GMM) approche pour mapper des paramètres spectraux acoustiques à la position de la main dans LPC et la forme de la lèvre d’accompagnement. Nous donc contribué à la mise au point d'un système de traduction automatique dans le cadre de la synthèse de la parole visuelle.Cela prouve que l'approche MLR est bonne pour l'estimation des paramètres pour les lèvres à partir des paramètres spectraux car il y a forte corrélation linéaire entre les paramètres des lèvres et des paramètres spectraux. Cependant, la performance de l'approche MLR pour estimer la position de la main est faible car il n'y a pas de relation entre les positions de la main et des paramètres spectraux. En introduisant un espace intermédiaire, il s'avère que la structure de topologie similaire est la clé de la MLR. Afin de libérer de la contrainte linéaire de l'approche MLR, nous appliquons la méthode de cartographie basée sur GMM qui possède à la fois les propriétés de classification et de régression. Les paramètres de GMM sont estimés par les méthodes de formation supervisées, non supervisées et semi- supervisés séparément dans la vue de la théorie de l'apprentissage de la machine. La méthode de formation supervisée montre une grande efficacité et une bonne robustesse. Le Minimum Mean Square Error (MMSE) et Maximum A Posteriori Probabilité (MAP) sont utilisés comme critères de régression séparément dans l'approche de la cartographie basée sur GMM. Cela prouve que l'approche MLR est un cas particulier de l'approche de GMM lorsque le nombre de gaussiennes est égal à un. Ainsi, l'approche de la cartographie sur GMM peut améliorer la performance significative en comparaison avec le MLR en augmentant le nombre de gaussiennes. Enfin, les différentes approches de cartographie utilisées dans ce travail sont comparées dans une transition continue. Il montre que l'approche sur GMM peut effectuer bien grâce à la propriété de classification lorsque les données source et cible n'a pas de " relation" comme dans le cas de l'estimation de la position de la main, et il peut également améliorer les performances par la propriété de régression local lorsque la source et les données cible a forte corrélation comme dans le cas du paramètre de lèvre estimation. En outre, une prédiction directe de la géométrie des lèvres comporte de l'image naturelle de la bouche région d'intérêt (ROI) sur la base de la 2D transformée en cosinus discrète (DCT) combinée à une analyse en composante principale (ACP) est proposé. Les résultats montrent la possibilité d'estimer les caractéristiques géométriques de la lèvre avec une bonne précision en utilisant un ensemble réduit de prédicteurs dérivés des coefficients DCT.

Spectral Parameters to Cued Speech Parameters Mapping : Multi-linear and GMM approaches (applied to French vowels)

Paramètres spectraux à LPC Paramètres Mapping : approches multi-linéaires et GMM (appliqué aux voyelles françaises)

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager