Prise en compte de critères acoustiques pour la synthèse de la parole

par Soufiane Rouibia

Thèse de doctorat en Traitement du signal et télécommunications

Sous la direction de Jean-Marc Boucher.

Soutenue en 2006

à Télécom Bretagne .


  • Résumé

    Cette thèse s'inscrit dans le domaine de la synthèse vocale à partir du texte et traite plus particulièrement de la synthèse par corpus (SPC). Cette approche basée sur la concaténation de segments acoustiques contenus dans de grandes bases de données s'est peu à peu instaurée comme un standard. En effet, moyennant la sélection d'unités adaptées au contexte de synthèse, elle permet d'aboutir à un signal de parole dont le naturel peut être assez bien préservé. La qualité de la synthèse obtenue par la méthode par concaténation est étroitement liée d'une part au corpus de synthèse et d'autre part à l'algorithme de sélection des unités. Malgré le saut notable de qualité qu'a permis d'atteindre cette technologie, la SPC n'est pas capable de garantir une parole dont la qualité soit à peu près constante sur l'ensemble d'un énoncé. Ceci est en grande partie dû au manque de contrôle acoustique des systèmes de SPC actuels. L'objectif de cette thèse est donc d'introduire des mécanismes permettant un meilleur contrôle acoustique lors de la synthèse. La méthode proposée consiste à effectuer une sélection sur la base d'une cible purement acoustique. Cette cible est déduite de modèles acoustiques - plus précisément des modèles de sénones - estimés lors d'une phase d'apprentissage. Dans un premier temps, nous proposons un algorithme de sélection basé uniquement sur cette cible acoustique. Puis la méthode de sélection est modifiée de manière à mieux contrôler l'information de fréquence fondamentale. Le module de sélection proposé est également combiné à un module de pré-sélection des unités, ce qui conduit à une diminution sensible de la complexité algorithmique sans dégradation perceptible des résultats. Des tests d'écoutes formels révèlent que la méthode proposée permet de réduire significativement les discontinuités acoustiques lors de la concaténation. La méthode proposée est également appliquée à la réduction de corpus acoustiques et conduit à une réduction de l'ordre de 60 % de la base acoustique sans dégradation de la qualité de la parole produite.

  • Titre traduit

    Unit selection for speech synthesis based on accoustic criteria


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XVIII-112 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 101-108

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes 1. Service commun de la documentation. BU Beaulieu.
  • Disponible pour le PEB
  • Cote : TA RENNES 2006/143
  • Bibliothèque : IMT Atlantique campus de Brest. Bibliothèque d'études.
  • Disponible pour le PEB
  • Cote : 7.331 ROUI
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.