Thèse soutenue

Segmentation automatique de corpus de parole continue dédiés a la synthèse vocale

FR  |  
EN
Auteur / Autrice : Safaa Jarifi
Direction : Samir Saoudi
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et télécommunications
Date : Soutenance en 2007
Etablissement(s) : Télécom Bretagne

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Lia segmentation de grands corpus est une tâche indispensable dans la réalisation de nombreux systèmes de communication Homme-Machine comme les systèmes de synthèse de la parole et de reconnaissance vocale. Cette segmentation se doit d'être la plus précise et la plus proche de la segmentation manuelle. Certaines techniques automatiques permettent d'acquérir une précision acceptable dans certaines applications. Parmi ces techniques, il existe une approche standard basée sur les modèles de Markov cachés (HMM). Cette approche est notre référence. Néanmoins, dans des applications comme la synthèse vocale, cette technique automatique reste insuffisante et ne garantit pas une très bonne qualité de la parole synthétique. Pour cette raison, des vérifications manuelles faites par des experts humains sont appliquées à la segmentation de la parole. Ces vérifications sont fastidieuses et très coûteuses. Ce travail de thèse propose des solutions pour réduire, voire éliminer ces vérifications et par conséquent faciliter la création de voix de synthèse. Dans un premier temps, nous proposons une solution générique et efficace pour la segmentation de grands corpus. Cette approche est basée sur la fusion de plusieurs segmentations et permet de réduire de presque 60\% le nombre d'erreurs par rapport à la segmentation standard par HMM lorsqu'on utilise une phonétisation correcte du corpus de parole. Ensuite, nous étudions la détection des erreurs de segmentation dans le but d'alléger la tâche de vérification manuelle. Cette détection des erreurs de segmentation est réalisée avec des mesures de confiance déduites de certains algorithmes utilisés pour fusionner les segmentations. Enfin, nous traitons le problème de la correction des erreurs de phonétisation. Cette étude est une première étape pour traiter le cas où notre système de segmentation basé sur la fusion utilise une phonétisation erronée.