Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems | Theses.fr

Natalia Tomashenko

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole

FR |

EN

Auteur / Autrice :	Natalia Tomashenko
Direction :	Yannick Estève, Yuri Matveev, Anthony Larcher
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 01/12/2017
Etablissement(s) :	Le Mans en cotutelle avec ITMO University
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique de l'Université du Mans - Laboratoire d'Informatique de l'Université du Mans / LIUM
Jury :	Examinateurs / Examinatrices : Yuri Matveev, Anthony Larcher

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Modèles de mélanges gaussiens

Modèles acoustiques

Reconnaissance automatique de la parole

Mots clés libres

Adaptation au locuteur

Apprentissage adaptatif au locuteur (SAT)

Réseaux de neurones profonds

Modèles de mélanges Gaussiens (GMM)

Paramètres acoustiques dérivés de GMM (GMMD)

Reconnaissance automatique de la parole (RAP)

Modèles acoustiques

Apprentissage profond

Résumé

FR |

EN

Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses