Synthèse à partir du texte de visage 3D parlant français
Auteur / Autrice : | Bertrand Le Goff |
Direction : | Christian Benoit |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, image, parole |
Date : | Soutenance en 1997 |
Etablissement(s) : | Grenoble INPG |
Résumé
Les recherches presentees dans cette these sont axees sur la bimodalite de la parole. Afin de disposer d'un outil de recherche sur la parole visuelle, un synthetiseur visuel de parole a ete developpe pour le francais. Il permet de predire les commandes temporelles d'un modele de visage a partir d'une entree phonetique. Dans un premier temps, nous presentons le modele de visage que nous avons adapte afin qu'il puisse etre anime par des parametres directement mesurables sur la face et le profil d'un locuteur de reference. La qualite de la modelisation du visage a ete evaluee par un ensemble de tests de perception. Puis, nous avons dresse une liste des differents modeles permettant de trouver une solution au probleme essentiel de la parole : la coarticulation. L'approche que nous avons choisie s'appuie sur le principe de fonctions de dominance qui reproduisent temporellement l'influence de la production de chaque unite phonetique sur ses voisines. Une methodologie - generalisable a d'autres langues - a ete elaboree afin de determiner automatiquement les coefficients caracteristiques de ces fonctions de dominance a partir des donnees mesurees sur un locuteur de reference. Cette synthese visuelle a ete synchronisee avec un synthetiseur acoustique, permettant ainsi l'animation audiovisuelle du modele de visage a partir d'un texte quelconque en francais. Cette synthese audiovisuelle a ete evaluee a travers plusieurs tests. Une comparaison quantitative des trajectoires des parametres produits par le synthetiseur visuel a ete faite avec les trajectoires observees sur le locuteur de reference. Le synthetiseur visuel a egalement ete evalue en termes d'intelligibilite, et compare a l'intelligibilite du meme modele de visage commande par analyse/synthese. Cette evaluation a montre que l'intelligibilite du modele anime par le synthetiseur visuel est equivalente a celle du modele anime par analyse/synthese.