Codage de la parole base sur une transformation en ondelettes
Auteur / Autrice : | Radwan Kastantin |
Direction : | Gang Feng |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences appliquées |
Date : | Soutenance en 1996 |
Etablissement(s) : | Grenoble INPG |
Partenaire(s) de recherche : | Laboratoire : Institut de la communication parlée (Grenoble ; 1983-2007) |
Résumé
Le but de cette these est de mettre en evidence l'interet de la transformation en ondelettes pour la compression de la parole et d'elaborer un codeur de parole a debit moyen base sur cette transformation. Cette these est composee de trois parties. Dans la premiere partie, nous presentons les proprietes importantes de cette transformation vis-a-vis du codage de la parole, notamment ses aspects temps-frequence permettant de tenir compte des proprietes psychoacoustiques du systeme de perception humaine. Dans la deuxieme partie, nous cherchons a determiner la transformation en ondelettes, optimale pour la compression de la parole. Les experiences ont montre que la transformation en ondelettes discretes orthogonales a support fini constitue une solution ideale pour notre probleme. Nous proposons l'utilisation de l'algorithme des paquets d'ondelettes pour realiser notre codeur de parole. Dans la troisieme partie de cette these, l'etude de plusieurs schemas de codage est presentee. Nous nous focalisons, en particulier, sur la quantification des coefficients d'ondelettes car celle-ci constitue le veritable noyau du codeur. Nous montrons que la quantification vectorielle est particulierement efficace: une tres haute qualite de la parole codee peut etre obtenue avec un debit d'environ 12 kbits/p (bande passante telephonique), alors qu'il faut un debit de 16 kbits/s pour obtenir la meme qualite si l'on utilise la quantification scalaire. Enfin, nous montrons egalement que l'integration du masquage frequentiel permet d'ameliorer sensiblement notre codeur. L'avantage essentiel de cette technique reside dans le fait qu'elle n'utilise pas un modele de production de la parole, ce qui permet la compression de tous les signaux audio. Cette etude peut etre appliquee sur d'autres bandes passantes, plus larges que la bande telephonique, qui permettent d'obtenir de meilleurs resultats