Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole

. Aditya Arie Nugraha

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole

FR |

EN

Auteur / Autrice :	. Aditya Arie Nugraha
Direction :	Emmanuel Vincent, Antoine Liutkus
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 05/12/2017
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Marie-Odile Berger
	Examinateurs / Examinatrices : Björn Schuller, Christian Jutten, Stefan Uhlich
	Rapporteurs / Rapporteuses : Björn Schuller, Christian Jutten

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Séparation de sources (traitement du signal)

Reconnaissance automatique de la parole

Mots clés libres

Séparation de sources audio multicanale

Modèle gaussien multicanal

Réseaux de neurones profonds

Résumé

FR |

EN

Dans cette thèse, nous traitons le problème de la séparation de sources audio multicanale par réseaux de neurones profonds (deep neural networks, DNNs). Notre approche se base sur le cadre classique de séparation par algorithme espérance-maximisation (EM) basé sur un modèle gaussien multicanal, dans lequel les sources sont caractérisées par leurs spectres de puissance à court terme et leurs matrices de covariance spatiales. Nous explorons et optimisons l'usage des DNNs pour estimer ces paramètres spectraux et spatiaux. À partir des paramètres estimés, nous calculons un filtre de Wiener multicanal variant dans le temps pour séparer chaque source. Nous étudions en détail l'impact de plusieurs choix de conception pour les DNNs spectraux et spatiaux. Nous considérons plusieurs fonctions de coût, représentations temps-fréquence, architectures, et tailles d'ensembles d'apprentissage. Ces fonctions de coût incluent en particulier une nouvelle fonction liée à la tâche pour les DNNs spectraux: le rapport signal-à-distorsion. Nous présentons aussi une formule d'estimation pondérée des paramètres spatiaux, qui généralise la formulation EM exacte. Sur une tâche de séparation de voix chantée, nos systèmes sont remarquablement proches de la méthode de l'état de l'art actuel et améliorent le rapport source-interférence de 2 dB. Sur une tâche de rehaussement de la parole, nos systèmes surpassent la formation de voies GEV-BAN de l'état de l'art de 14%, 7% et 1% relatifs en terme d'amélioration du taux d'erreur sur les mots sur des données à 6, 4 et 2 canaux respectivement

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses