Thèse soutenue

Reconnaissance automatique de la parole continue en environnement bruité : Application à des modèles stochastiques de trajectoires

FR  |  
EN
Auteur / Autrice : Olivier Siohan
Direction : Jean-Paul Haton
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1995
Etablissement(s) : Nancy 1
Partenaire(s) de recherche : autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques

Résumé

FR

Les systèmes actuels de reconnaissance automatique de la parole (rap) sont généralement peu robustes aux variations du signal intervenant entre les conditions de test et d'apprentissage. Dans cette thèse, nous proposons et évaluons différentes approches pour améliorer la robustesse au bruit du système de reconnaissance de parole continue vinics du crin-inria lorraine, fondé sur des modèles stochastiques de trajectoires de parole (STM). Dans une première partie, nous dressons un bilan des principales approches développées dans le domaine du rap dans le bruit. La seconde partie est une étude et comparaison de trois approches. Nous développons d'une part une méthode permettant d'estimer un STM hybride de parole bruitée, à partir d'un modèle de Markov caché de bruit et d'un STM de parole propre. D'autre part, nous proposons d'appliquer un filtrage du signal, spécifique à chaque état de chaque STM et optimisé selon un critère significatif au niveau perceptif. Ensuite, nous appliquons une méthode d'adaptation des STMs de parole propre aux variations des conditions d'environnement, calculée par régression linéaire. La comparaison expérimentale de ces trois approches montre la supériorité de l'adaptation par régression linéaire. Enfin, dans une dernière partie, nous développons d'une part une étude expérimentale sur l'utilisation de l'analyse discriminante linéaire pour mettre en œuvre un paramétrage du signal de parole robuste au bruit. Nous mettons en évidence que l'analyse discriminante permet d'obtenir un paramétrage adapté au bruit, mais peu robuste aux variations du rapport signal-à-bruit. D'autre part, nous prenons en compte les variations du rythme d'élocution provoquées par l'effet lombard, en utilisant une méthode d'adaptation des modèles de durée des phonèmes, sous le cadre général de l'apprentissage bayesien. Cette méthode, évaluée sur une tache de reconnaissance de mots isolés permet d'améliorer de façon significative les taux de reconnaissance.