Thèse soutenue

Codage haute qualité des signaux de parole (20 Hz - 15 kHz) à très faible retard et au débit de 64 kbit/s

FR  |  
EN
Auteur / Autrice : Carlo Murgia
Direction : Gang Feng
Type : Thèse de doctorat
Discipline(s) : Signal, image, parole
Date : Soutenance en 1997
Etablissement(s) : Grenoble INPG
Partenaire(s) de recherche : Laboratoire : Institut de la communication parlée (Grenoble ; 1983-2007)

Résumé

FR

Cette etude a pour objectif l'elaboration d'algorithmes performants de compression des signaux audio (parole et musique) de la bande fm (20 hz - 15 khz) a tres faible retard et au debit de 64 kbit/s. Nous avons choisi la technique ld-celp comme algorithme de base. Ce codeur a initialement ete concu pour la quantification a tres faible retard des signaux de parole de la bande telephonique (300-3400 hz) et standardise a l'itu-t sous le sigle g. 728. Une partie de notre travail a consiste a etendre cet algorithme a la bande fm en optimisant sa structure et en exploitant au mieux les proprietes du systeme perceptif humain. Ensuite, en nous basant sur cette technique, nous avons mis au point d'autres schemas de compression de haute qualite et a faible retard. Dans un premier temps nous avons modifie l'algorithme du g. 728 pour l'adapter a la bande fm. Pour ce faire, nous avons mis au point une procedure et des outils de test permettant d'optimiser les parametres de cet algorithme au sens d'un critere de distorsion perceptuelle. En particulier, nous avons developpe un algorithme d'evaluation de la qualite subjective denomme mpeq : mesure perceptuelle d'evaluation de la qualite. Grace a ces optimisations nous avons pu atteindre une bonne qualite des signaux codes. Cependant, la quasi-transparence ne peut etre atteinte que par l'introduction d'algorithmes de mise en forme optimale du bruit de quantification. Nous avons ainsi propose de nouveaux algorithmes bases sur la modelisation par prediction lineaire de la courbe de masquage. Dans un second temps, nous avons etudie des codeurs permettant de reduire la complexite sans perte significative de qualite. Nous avons exploite l'utilisation des dictionnaires ternaires algebriques et propose un codeur predictif adaptatif a faible retard base sur la quantification vectorielle gain-forme. Ces techniques de compression permettent une reduction de la complexite allant jusqu'a 30% tout en garantissant une qualite satisfaisante pour la parole et la musique. Les algorithmes proposes ont ete evalues par des tests d'ecoutes formels. La qualite des signaux codes par nos codeurs est comparable a celle du standard mpeg layer ii et significativement superieure a celle du standard mpeg layer i et ceci pour un retard de seulement 0,15 ms contre un retard de 35 ms pour les codeurs mpeg.