Extraction de parametres discriminatifs : application a la reconnaissance de la parole
Auteur / Autrice : | ALAIN ERNEST BIEM |
Direction : | Patrick Gallinari |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences appliquées |
Date : | Soutenance en 1997 |
Etablissement(s) : | Paris 6 |
Résumé
La reconnaissance automatique de la parole suppose l'application de deux processus fondamentaux : la parametrisation du signal de parole et le decodage phonetique. La parametrisation acoustique a pour but d'extraire l'information pertinente du signal acoustique dans le but d'en fournir une description aussi compacte et representative que possible. Sa mise en oeuvre repose principalement sur des methodes issues du traitement du signal. Le decodage phonetique consiste essentiellement a classifier des formes acoustiques en vue de la reconnaissance. Differents decodeurs sont utilises a l'heure actuelle (modeles de markov caches, reseaux de neuronnes) ayant chacun leur propre algorithme d'apprentissage. Force est de constater que le processus de parametrisation acoustique et le processus decodage utilisent des criteres d'optimisation differents, alors qu'ils ont pour objectif commun la reconnaissance des unites phonetiques. On peut, par exemple, s'interroger sur l'optimalite, en terme de minimisation de l'erreur de classification, des parametres derives d'un critere de distorsion ou d'un critere de perception. En d'autres termes, les methodes classiques ne garantissent pas l'optimalite du processus global de reconnaissance. Une solution a ce probleme serait d'integrer ces deux processus dans un systeme obeissant au seul critere de minimisation des erreurs de classification. Il y aurait donc deux modules optimisables composant l'architecture du systeme : l'extracteur de traits et le processus de classification (decodeur). Cette methode, appelee en anglais discriminative feature extraction (dfe), a ete appliquee a quelques taches en parole, dans le cadre theorique mce/gpd (minimum classification error / generalized probabilistic descent method). Dans cette approache, une fonction d'erreur refletant les erreurs de classification du systeme est minimisee a l'aide d'un algorithme de descente de gradient stochastique. Le principal avantage de ce formalisme reside dans le fait qu'il peut etre applique a n'importe quels types de parametrisation et de decodage, garantissant l'optimalite du systeme ainsi realise. Cette approache est appliquee a l'optimisation des bank de filtres et des coefficients cepstraux, qui constituent les methodes de parametrisation du signal vocal les plus repandues.