Thèse soutenue

Analyse et contrôle du signal glottique en synthèse de la parole

FR  |  
EN
Auteur / Autrice : Damien Vincent
Direction : Thierry Chonavel
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et télécommunications
Date : Soutenance en 2007
Etablissement(s) : Télécom Bretagne

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Les systèmes actuels de synthèse vocale sont basés sur la technologie dite de synthèse par corpus. Celle-ci repose sur la sélection d’une séquence optimale d’unités acoustiques au sens du contexte de synthèse. Cette approche qui minimise l’effort de concaténation conduit à une restitution jugée naturelle mais uniquement pour un style de parole lue. L’acceptabilité réelle d’une brique technologique de synthèse vocale dépend cependant de la réponse à deux attentes principales : la capacité du système à restituer d’une part des formes expressives et d’autre part des qualités de voix différentes. Pour satisfaire ce double objectif, un travail de caractérisation des signaux de parole est nécessaire. Cette thèse traite de la prise en compte explicite des mécanismes de production de la parole en synthèse. Dans une première partie, nous nous intéressons à la décomposition d’un signal de parole en une composante de source – l’onde de débit glottique (ODG) produite lors de la vibration des cordes vocales – et une composante filtre caractérisant le conduit vocal. Pour résoudre ce problème de déconvolution, nous proposons un modèle ARX-LF qui consiste à introduire, dans un processus linéaire de production de la parole, de l’information a priori sur l’ODG en utilisant un modèle LF (Liljencrants Fant). L’estimation des paramètres du modèle ARX-LF selon un critère des moindres carrés résulte en un problème d’optimisation non-linéaire complexe. Nous introduisons donc une solution efficace basée sur un découplage de l’estimation des paramètres et sur de nombreuses optimisations algorithmiques. Les résultats d’estimation sont très encourageants. D’une part, la méthode d’inversion proposée conduit à une meilleure estimation des instants de fermeture que les méthodes existantes. D’autre part, les ODG estimées ont pu être corroborées par des mesures électroglottographiques. Dans une seconde partie, nous avons proposé une méthode de synthèse et de modification de signaux de parole basée sur le modèle ARX-LF. Nous nous sommes particulièrement attachés à la modélisation de la composante résiduelle et avons introduit une nouvelle méthode de contrôle explicite de l’enveloppe temporelle du résidu lors de la modification de signaux de parole. Des résultats en modification de durée et de fréquence fondamentale permettent de comparer favorablement la méthode proposée aux techniques existantes.