Segmentation automatique de corpus de parole continue dédiés a la synthèse vocale

par Safaa Jarifi

Thèse de doctorat en Traitement du signal et télécommunications

Sous la direction de Samir Saoudi.

Soutenue en 2007

à Télécom Bretagne .


  • Résumé

    Lia segmentation de grands corpus est une tâche indispensable dans la réalisation de nombreux systèmes de communication Homme-Machine comme les systèmes de synthèse de la parole et de reconnaissance vocale. Cette segmentation se doit d'être la plus précise et la plus proche de la segmentation manuelle. Certaines techniques automatiques permettent d'acquérir une précision acceptable dans certaines applications. Parmi ces techniques, il existe une approche standard basée sur les modèles de Markov cachés (HMM). Cette approche est notre référence. Néanmoins, dans des applications comme la synthèse vocale, cette technique automatique reste insuffisante et ne garantit pas une très bonne qualité de la parole synthétique. Pour cette raison, des vérifications manuelles faites par des experts humains sont appliquées à la segmentation de la parole. Ces vérifications sont fastidieuses et très coûteuses. Ce travail de thèse propose des solutions pour réduire, voire éliminer ces vérifications et par conséquent faciliter la création de voix de synthèse. Dans un premier temps, nous proposons une solution générique et efficace pour la segmentation de grands corpus. Cette approche est basée sur la fusion de plusieurs segmentations et permet de réduire de presque 60\% le nombre d'erreurs par rapport à la segmentation standard par HMM lorsqu'on utilise une phonétisation correcte du corpus de parole. Ensuite, nous étudions la détection des erreurs de segmentation dans le but d'alléger la tâche de vérification manuelle. Cette détection des erreurs de segmentation est réalisée avec des mesures de confiance déduites de certains algorithmes utilisés pour fusionner les segmentations. Enfin, nous traitons le problème de la correction des erreurs de phonétisation. Cette étude est une première étape pour traiter le cas où notre système de segmentation basé sur la fusion utilise une phonétisation erronée.

  • Titre traduit

    Automatic segmentation of continous speech corpora dedicated to speech synthesid


  • Pas de résumé disponible.


  • Résumé

    This segmentation of large corpora is an essential task in several Human-machine interfaces in communication systems such as voice synthesis and voice recognition. This segmentation must be very accurate and close to manual segmentation. Some automatic techniques are able to achieve an acceptable accuracy in some applications. Among these techniques, the standard approach based on Hidden Markov Models (HMM) performs reasonably well. Nervetheless, for TTS synthesis systems, these automatic techniques remain insufficient and do not guarantee an acceptable synthetic voice quality. For this reason, a manual checking made by human experts is generally applied to the segmentation. This checking is lengthy and very expensive. This research is a contribution to TTS synthesis that aims at improving the automatic segmentation of speech signals in order to ease the creation of synthetic voices. In this document, we first propose a generic and efficient approach for the segmentation of large corpora. This approach is based in the fusion of several segmentations and makes it possible to reduce by around 60 % the number of errors produced by the standard HMM segmentation when a correct phonetic transcription of the speech corpus is used. Finally, within this framework, we address the correction of the phonetic transcription. This study can be regarded as a first step applicable to the case where the phonetic transcription at the input of our generic system of segmentation is not correct.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (172 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. [163]-172

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes 1. Service commun de la documentation. BU Beaulieu.
  • Disponible pour le PEB
  • Cote : TA RENNES 2007/7
  • Bibliothèque : IMT Atlantique campus de Brest. Bibliothèque d'études.
  • Disponible pour le PEB
  • Cote : 7.331 JARI

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2007TELB0032
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.