Exploring variabilities through factor analysis in automatic acoustic language recognition

Florian Verdet

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Exploration par l'analyse factorielle des variabilités de la reconnaissance acoustique automatique de la langue

FR |

DE |

EN

Auteur / Autrice :	Florian Verdet
Direction :	Jean Hennebert, Jean-François Bonastre, Driss Matrouf
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 05/09/2011
Etablissement(s) :	Avignon en cotutelle avec Université de Fribourg (Fribourg, Suisse). Département d'informatique
Ecole(s) doctorale(s) :	École doctorale 536 « Sciences et agrosciences » (Avignon)
Jury :	Président / Présidente : Lori Lamel
	Examinateurs / Examinatrices : Rolf Ingold
	Rapporteurs / Rapporteuses : Régine André-Obrecht, Pietro Laface

Mots clés

FR |

EN

Mots clés contrôlés

Reconnaissance des formes (informatique)

Reconnaissance automatique de la parole

Mots clés libres

Reconnaissance de formes

Traitement automatique de la parole

Apprentissage automatique

Modélisation acoustique

Analyse factorielle (jointe)

Compensation de la variabilité

Robustesse du système

Information acoustique à court terme

Modèles de mélanges de Gaussiennes (GMM)

Modèle Universel (UBM)

Décomposition de l'information

Machines à Vectors Support (SVM)

Canal de la source acoustique

Détecteur de canal

Résumé

FR |

EN

La problématique traitée par la Reconnaissance de la Langue (LR) porte sur la définition découverte de la langue contenue dans un segment de parole. Cette thèse se base sur des paramètres acoustiques de courte durée, utilisés dans une approche d’adaptation de mélanges de Gaussiennes (GMM-UBM). Le problème majeur de nombreuses applications du vaste domaine de la re- problème connaissance de formes consiste en la variabilité des données observées. Dans le contexte de la Reconnaissance de la Langue (LR), cette variabilité nuisible est due à des causes diverses, notamment les caractéristiques du locuteur, l’évolution de la parole et de la voix, ainsi que les canaux d’acquisition et de transmission. Dans le contexte de la reconnaissance du locuteur, l’impact de la variabilité solution peut sensiblement être réduit par la technique d’Analyse Factorielle (Joint Factor Analysis, JFA). Dans ce travail, nous introduisons ce paradigme à la Reconnaissance de la Langue. Le succès de la JFA repose sur plusieurs hypothèses. La première est que l’information observée est décomposable en une partie universelle, une partie dépendante de la langue et une partie de variabilité, qui elle est indépendante de la langue. La deuxième hypothèse, plus technique, est que la variabilité nuisible se situe dans un sous-espace de faible dimension, qui est défini de manière globale.Dans ce travail, nous analysons le comportement de la JFA dans le contexte d’un dispositif de LR du type GMM-UBM. Nous introduisons et analysons également sa combinaison avec des Machines à Vecteurs Support (SVM). Les premières publications sur la JFA regroupaient toute information qui est amélioration nuisible à la tâche (donc ladite variabilité) dans un seul composant. Celui-ci est supposé suivre une distribution Gaussienne. Cette approche permet de traiter les différentes sortes de variabilités d’une manière unique. En pratique, nous observons que cette hypothèse n’est pas toujours vérifiée. Nous avons, par exemple, le cas où les données peuvent être groupées de manière logique en deux sous-parties clairement distinctes, notamment en données de sources téléphoniques et d’émissions radio. Dans ce cas-ci, nos recherches détaillées montrent un certain avantage à traiter les deux types de données par deux systèmes spécifiques et d’élire comme score de sortie celui du système qui correspond à la catégorie source du segment testé. Afin de sélectionner le score de l’un des systèmes, nous avons besoin d’un analyses détecteur de canal source. Nous proposons ici différents nouveaux designs pour engendrées de tels détecteurs automatiques. Dans ce cadre, nous montrons que les facteurs de variabilité (du sous-espace) de la JFA peuvent être utilisés avec succès pour la détection de la source. Ceci ouvre la perspective intéressante de subdiviser les5données en catégories de canal source qui sont établies de manière automatique. En plus de pouvoir s’adapter à des nouvelles conditions de source, cette propriété permettrait de pouvoir travailler avec des données d’entraînement qui ne sont pas accompagnées d’étiquettes sur le canal de source. L’approche JFA permet une réduction de la mesure de coûts allant jusqu’à généraux 72% relatives, comparé au système GMM-UBM de base. En utilisant des systèmes spécifiques à la source, suivis d’un sélecteur de scores, nous obtenons une amélioration relative de 81%.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Exploration par l'analyse factorielle des variabilités de la reconnaissance acoustique automatique de la langue

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Exploration par l'analyse factorielle des variabilités de la reconnaissance acoustique automatique de la langue

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses