Thèse soutenue

Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Simon Leglaive
Direction : Roland BadeauGaël Richard
Type : Thèse de doctorat
Discipline(s) : Signal et images
Date : Soutenance le 12/12/2017
Etablissement(s) : Paris, ENST
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Sharon Gannot
Examinateurs / Examinatrices : Matthieu Kowalski, Nancy Bertin
Rapporteurs / Rapporteuses : Laurent Girin, Cédric Févotte

Résumé

FR  |  
EN

Cette thèse porte sur la séparation sous-déterminée de sources sonores en milieu réverbérant. Nous adoptons une approche probabiliste où les signaux sources sont représentés comme des variables aléatoires latentes dans un domaine temps-fréquence. La structure spécifique des signaux musicaux dans ce domaine est exploitée par l’intermédiaire de modèles de factorisation en matrices non-négatives. Les méthodes de la littérature traitent généralement les filtres de mélange comme des paramètres déterministes estimés uniquement à partir des données observées. Ces filtres correspondent cependant à des réponses de salle, ils ont donc une structure bien particulière qu’il est possible d’exploiter afin de guider leur estimation. Dans une première partie, le processus de mélange convolutif temporel est approché dans le domaine de la transformée de Fourier à court-terme, sous une hypothèse de filtres de mélange à réponse impulsionnelle courte. Nous développons des modèles autorégressifs à moyenne ajustée ayant pour objectif de transcrire la dynamique temporelle des filtres sous forme de corrélations fréquentielles. Ces modèles sont ensuite utilisés dans une méthode de séparation de sources où les filtres sont estimés au sens du maximum a posteriori, par un algorithme espérance-maximisation. Dans une seconde partie, nous proposons une méthode d’inférence variationnelle des coefficients temps-fréquence des sources à partir des observations temporelles du mélange. Le processus de mélange convolutif est donc cette fois représenté de façon exacte. En plus de convenir à la séparation de mélanges fortement réverbérants, cette approche nous permet de développer des a priori simples sur les filtres de mélange afin de guider leur estimation. Nous proposons un modèle basé sur la distribution t de Student et exploitant la décroissance exponentielle de la réverbération dans le domaine temporel.