Auteur / Autrice : | Simon Leglaive |
Direction : | Roland Badeau, Gaël Richard |
Type : | Thèse de doctorat |
Discipline(s) : | Signal et images |
Date : | Soutenance le 12/12/2017 |
Etablissement(s) : | Paris, ENST |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) |
Jury : | Président / Présidente : Sharon Gannot |
Examinateurs / Examinatrices : Matthieu Kowalski, Nancy Bertin | |
Rapporteurs / Rapporteuses : Laurent Girin, Cédric Févotte |
Mots clés
Résumé
Cette thèse porte sur la séparation sous-déterminée de sources sonores en milieu réverbérant. Nous adoptons une approche probabiliste où les signaux sources sont représentés comme des variables aléatoires latentes dans un domaine temps-fréquence. La structure spécifique des signaux musicaux dans ce domaine est exploitée par l’intermédiaire de modèles de factorisation en matrices non-négatives. Les méthodes de la littérature traitent généralement les filtres de mélange comme des paramètres déterministes estimés uniquement à partir des données observées. Ces filtres correspondent cependant à des réponses de salle, ils ont donc une structure bien particulière qu’il est possible d’exploiter afin de guider leur estimation. Dans une première partie, le processus de mélange convolutif temporel est approché dans le domaine de la transformée de Fourier à court-terme, sous une hypothèse de filtres de mélange à réponse impulsionnelle courte. Nous développons des modèles autorégressifs à moyenne ajustée ayant pour objectif de transcrire la dynamique temporelle des filtres sous forme de corrélations fréquentielles. Ces modèles sont ensuite utilisés dans une méthode de séparation de sources où les filtres sont estimés au sens du maximum a posteriori, par un algorithme espérance-maximisation. Dans une seconde partie, nous proposons une méthode d’inférence variationnelle des coefficients temps-fréquence des sources à partir des observations temporelles du mélange. Le processus de mélange convolutif est donc cette fois représenté de façon exacte. En plus de convenir à la séparation de mélanges fortement réverbérants, cette approche nous permet de développer des a priori simples sur les filtres de mélange afin de guider leur estimation. Nous proposons un modèle basé sur la distribution t de Student et exploitant la décroissance exponentielle de la réverbération dans le domaine temporel.