Diagnostic pour la combinaison de systèmes de reconnaissance automatique de la parole
Auteur / Autrice : | Loïc Barrault |
Direction : | Renato De Mori, Driss Matrouf |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2008 |
Etablissement(s) : | Avignon |
Mots clés
Mots clés contrôlés
Résumé
La Reconnaissance Automatique de la Parole (RAP) est affectée par les nombreuses variabilités présentes dans le signal de parole. En dépit de l’utilisation de techniques sophistiquées, un système RAP seul n’est généralement pas en mesure de prendre en compte l’ensemble de ces variabilités. Nous proposons l’utilisation de diverses sources d’information acoustique pour augmenter la précision et la robustesse des systèmes. La combinaison de différents jeux de paramètres acoustiques repose sur l’idée que certaines caractéristiques du signal de parole sont davantage mises en avant par certains jeux de paramètres que par d’autres. L’intérêt est donc d’exploiter les points forts de chacun. Par ailleurs, les différentes partitions de l’espace acoustique opérées par les modèles acoustiques peuvent être mises à profit dans des techniques de combinaison bénéficiant de leur complémentarité. Le diagnostic est au coeur de ce travail. L’analyse des performances de chaque jeu de paramètres permet de dégager des contextes spécifiques dans lesquels la prédiction du résultat de reconnaissance est possible. Nous présentons une architecture de diagnostic dans laquelle le système RAP est vu comme un ''canal de transmission'' dont l’entrée correspond aux phonèmes et la sortie au résultat de reconnaissance. Cette architecture permet de séparer les sources d’ambiguïté au sein du système de reconnaissance. Les analyses ont permis d’intégrer des stratégies de combinaison post-décodage à un niveau segmental élevé (phonème ou mot). Des techniques de combinaison des probabilités a posteriori des états d’un modèle de Markov caché au niveau de la trame sont également proposées. Afin d’améliorer l’estimation de ces probabilités, les probabilités obtenues avec différents modèles acoustiques sont fusionnées. Pour combiner les probabilités de manière cohérente, nous avons développé un protocole permettant d’entraîner des modèles de même topologie avec des paramètres acoustiques différents