Fusion pour la séparation de sources audio

Xabier Jaureguiberry

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Fusion pour la séparation de sources audio

FR |

EN

Auteur / Autrice :	Xabier Jaureguiberry
Direction :	Gaël Richard, Emmanuel Vincent
Type :	Thèse de doctorat
Discipline(s) :	Signal et images
Date :	Soutenance le 16/06/2015
Etablissement(s) :	Paris, ENST
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury :	Président / Présidente : Jean-Luc Zarader
	Examinateurs / Examinatrices : Pierre Leveau, Jonathan Le Roux
	Rapporteurs / Rapporteuses : Laurent Girin, Jérôme Idier

Mots clés

FR |

EN

Mots clés contrôlés

Statistique bayésienne

Réseaux neuronaux (informatique)

Fusion multicapteurs

Traitement du signal

Mots clés libres

Sélection de modèles

Combinaison de modèles

Séparation de sources audio

Rehaussement de la parole

Factorisation en matrices non-négatives

Inférence variationnelle bayésienne

Moyennage bayésien de modèles

Réseaux de neurones profonds

Résumé

FR |

EN

La séparation aveugle de sources audio dans le cas sous-déterminé est un problème mathématique complexe dont il est aujourd'hui possible d'obtenir une solution satisfaisante, à condition de sélectionner la méthode la plus adaptée au problème posé et de savoir paramétrer celle-ci soigneusement. Afin d'automatiser cette étape de sélection déterminante, nous proposons dans cette thèse de recourir au principe de fusion. L'idée est simple : il s'agit, pour un problème donné, de sélectionner plusieurs méthodes de résolution plutôt qu'une seule et de les combiner afin d'en améliorer la solution. Pour cela, nous introduisons un cadre général de fusion qui consiste à formuler l'estimée d'une source comme la combinaison de plusieurs estimées de cette même source données par différents algorithmes de séparation, chaque estimée étant pondérée par un coefficient de fusion. Ces coefficients peuvent notamment être appris sur un ensemble d'apprentissage représentatif du problème posé par minimisation d'une fonction de coût liée à l'objectif de séparation. Pour aller plus loin, nous proposons également deux approches permettant d'adapter les coefficients de fusion au signal à séparer. La première formule la fusion dans un cadre bayésien, à la manière du moyennage bayésien de modèles. La deuxième exploite les réseaux de neurones profonds afin de déterminer des coefficients de fusion variant en temps. Toutes ces approches ont été évaluées sur deux corpus distincts : l'un dédié au rehaussement de la parole, l'autre dédié à l'extraction de voix chantée. Quelle que soit l'approche considérée, nos résultats montrent l'intérêt systématique de la fusion par rapport à la simple sélection, la fusion adaptative par réseau de neurones se révélant être la plus performante.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Fusion pour la séparation de sources audio

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Fusion pour la séparation de sources audio

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses