Utilisation de modeles de markov caches pour une compensation synchrone a la trame, dans un contexte de reconnaissance de la parole
Auteur / Autrice : | Lionel Delphin-Poulat |
Direction : | Régine André-Obrecht |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et techniques |
Date : | Soutenance en 1999 |
Etablissement(s) : | Rennes 1 |
Résumé
Une bonne partie des degradations des performances des systemes de reconnaissance fondes sur des modeles statistiques (modeles de markov caches) est due a la difference entre les donnees utilisees pour l'apprentissage et les donnees perturbees que l'on doit reconnaitre. Afin de diminuer l'effet des perturbations, il faut modeliser le signal et les perturbations. Les differences peuvent alors etre compensees. Suivant les modeles choisis, cette compensation peut se faire dans l'espace du signal, des parametres acoustiques ou dans celui des parametres du modele. Dans cette etude, on examine des perturbations qui evoluent au cours du temps, une adaptation locale est realisee. Les modeles de markov caches, utilises pour la reconnaissance constituent le modele de reference du signal de parole et la compensation est modelisee une fonction parametrique. Les observations de ces modeles (trames acoustiques) sont les vecteurs cepstraux. La mise a jour des parametres est synchrone a l'arrivee d'une nouvelle trame acoustique. Deux estimateurs sont etudies. Le premier repose sur un algorithme expectation maximization recursif. Le deuxieme est derive au sens du maximum de vraisemblance ou du maximum a posteriori le long de chaque sequence d'etats possible dans le modele de markov cache. Les deux estimateurs peuvent etre utilises au cours du processus de reconnaissance de la parole. Trois fonctions de compensation sont etudiees d'un point de vue theorique : la compensation d'un biais, une transformation affine dans l'espace cepstral et la soustraction spectrale. Des experiences de reconnaissance de la parole sont menees sur des bases de donnees enregistrees sur le reseaux telephoniques fixe et cellulaire. Dans ces evaluations, le deuxieme estimateur est retenu pour des raisons pratiques. Les experiences montrent l'efficacite des compensations synchrones a la trame pour compenser de fortes differences entre les donnees d'apprentissage et les donnees a reconnaitre.