Thèse soutenue

Étude de la compression de la parole et des signaux audionumériques dans la bande élargie

FR  |  
EN
Auteur / Autrice : Márk Fék
Direction : Jean-Marc BoucherAnnamaria R. Varkónyi-Kóczy
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et télécommunications
Date : Soutenance en 2006
Etablissement(s) : Rennes 1 en cotutelle avec USTE de Budapest

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Cette thèse présente un codeur parole et audio fonctionnant dans la bande élargie (50-7000 Hz). Le codeur proposé extrait des composants sinusoïdaux stables de l'entrée et les code séparement. Le résidu est codé à l'aide de la transformation en paquet d'ondelettes et un modèle psychoacoustique. La comparaison de trois méthodes d'analyse sinusoïdale (McAulay-Quatieri, Thomson et FHILN) est présentée. Une mesure de similitude sinusoïdale est utilisée pour rendre l'extraction des sinusoïdes plus robuste. Des méthodes de la quantification et codage des paramètres des sinusoïdes sont présentées. Une nouvelle méthode est proposée pour coder les fréquences des sinusoïdes. La quantification scalaire combinée avec le codage entropique est utilisée pour coder les coefficients de la transformation en paquet d'ondelettes. La méthode fournit une qualité parole et audio presque transparente à 32-62 kbps. La substitution du bruit perceptuel est introduit pour coder les sous-bandes bruitées de façon plus efficace. La qualité de la musique codée est restée presque transparente, mais la parole codée est devenue bruitée. Nous avons développé une méthode de quantification en réseau de points pour coder les coefficients de la transformation de paquet d'ondelettes. La méthode utilise le réseau Zn répartie en hyper-pyramides. Le débit du codeur a été réduit à 32-54 kbps, sans dégrader la qualité. Le test d'écoutes effectué a montré que la qualité du codeur est comparable a celle du codeur MPEG-1 couche III (MP3) fonctionnant à 64 kbps.