Thèse soutenue

Optimisation d'un schéma de codage de la parole à très bas débit, par indexation d'unités de taille variable

FR  |  
EN
Auteur / Autrice : Marc Padellini
Direction : Geneviève BaudoinFrançois Capman
Type : Thèse de doctorat
Discipline(s) : Électronique. Traitement du signal
Date : Soutenance en 2006
Etablissement(s) : Marne-la-Vallée

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse a pour but d'étudier un schéma de codage à très bas débit, de l’ordre de 500 bit/s, s’appuyant sur des techniques de reconnaissance et de synthèse vocale. Elle s'inscrit dans la continuité des travaux menés à la fois au cours du projet RNRT SYMPATEX et de la thèse de Cernocky. L’encodeur effectue une reconnaissance d’unités élémentaires de parole à l’aide de modèles de Markov cachés. Le décodeur intègre une approche de synthèse par concaténation d'unités acoustiques. Ce schéma exploite un grand corpus de parole stocké dans le système et organisé en une base de synthèse. L’encodeur y recherche les unités qui représentent au mieux la parole, puis transmet leurs indices ainsi que des paramètres prosodiques. Le décodeur y extrait les unités à concaténer pour restituer la parole. Les problèmes traités au cours de cette thèse portent sur l'amélioration de la qualité générale du schéma de codage. Une approche de sélection dynamique des unités est proposée à cet effet. De plus, le fonctionnement du schéma a été étendu à des conditions réalistes d'utilisation. Ainsi, le schéma est étudié dans plusieurs environnements bruyants et une méthode d’adaptation au bruit est proposée. L’extension au mode indépendant du locuteur est réalisée par un apprentissage conjoint sur un grand nombre de locuteurs, associé à une classification hiérarchique des locuteurs permettant de constituer un jeu de bases de synthèse proche du locuteur à coder. Enfin, la complexité du schéma est analysée et une méthode de compression de la base de synthèse est proposée