Modélisation implicite et explicite de la phase dans la séparation de sources par apprentissage profond
Auteur / Autrice : | Manuel Pariente |
Direction : | Emmanuel Vincent, Antoine Deleforge |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 29/09/2021 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications |
Jury : | Président / Présidente : Roland Badeau |
Examinateurs / Examinatrices : Emmanuel Vincent, Antoine Deleforge, Jonathan Le Roux, Xavier Alameda-Pineda, Armelle Brun | |
Rapporteurs / Rapporteuses : Jonathan Le Roux, Xavier Alameda-Pineda |
Mots clés
Résumé
Qu'elle soit traitée par des humains ou des machines, la parole occupe une place centrale dans notre vie quotidienne. Cependant, les distorsions dues au le bruit ou à la parole superposée réduisent à la fois la compréhension humaine et les performances des machines. La séparation de sources audio et le rehaussement de la parole visent à résoudre ce problème. La plupart des approches traditionnelles s'appuient sur l’amplitude de la transformée de Fourier à court terme (STFT), ce qui élimine la phase. Grâce à leur pouvoir de représentation accru, les réseaux de neurones profonds ont récemment permis de relâcher cette hypothèse et d'exploiter l'information spectro-temporelle fine fournie par la phase. Dans cette thèse, nous étudions l'impact de la modélisation implicite et explicite de la phase dans les modèles profonds discriminatifs et génératifs avec des applications à la séparation de sources et au rehaussement de la parole. Dans un premier temps, nous considérons la tâche de séparation discriminative de sources basée sur le cadre encodeur-masqueur-décodeur popularisé par TasNet. Nous proposons une vue unifiée des bancs de filtres appris et fixes et nous étendons deux bancs de filtres apprenables précédemment proposés en les rendant analytiques, permettant ainsi le calcul de la magnitude et de la phase de la représentation. Nous étudions la quantité d'information fournie par les composantes de magnitude et de phase en fonction de la taille de la fenêtre. Les résultats obtenus sur le jeu de données WHAM montrent que, pour tous les bancs de filtres, les meilleures performances sont obtenues pour des fenêtres courtes de 2 ms et que, pour des fenêtres aussi courtes, la modélisation de la phase est effectivement cruciale. Il est intéressant de noter que cela vaut également pour les modèles basés sur la STFT, qui surpassent même les performances du masquage d’amplitude oracle. Ces travaux ont constitué la base d'Asteroid, la boîte à outils de séparation de sources audio pour les chercheurs basée sur PyTorch, dont nous présentons ensuite les principales caractéristiques ainsi que des exemples de résultats obtenus. Ensuite, nous nous attaquons au rehaussement de la parole avec une approche basée sur un modèle génératif profond populaire, l’auto-encodeur variationnel (VAE), qui modélise les coefficients de STFT complexes dans une trame temporelle donnée comme des variables gaussiennes complexes indépendantes de moyenne nulle dont les variances dépendent d'une représentation latente. En combinant un modèle VAE pour les variances de la parole et un modèle de factorisation matricielle positive (NMF) pour les variances du bruit, nous proposons un algorithme d'inférence variationnelle pour inférer itérativement ces variances et en déduire le signal de parole propre estimé. En particulier, l'encodeur du VAE pré-appris peut être utilisé pour estimer l'approximation variationnelle du vrai postérieur, en utilisant la même hypothèse que celle utilisée pour apprendre les VAE. Les expériences montrent que la méthode proposée donne des résultats comparables à ceux des autres méthodes basées sur les VAE, tout en réduisant le coût de calcul d'un facteur 36.Suite à cette étude, nous dotons ce modèle VAE de la capacité de modéliser les dépendances temps-fréquence et la phase en relâchant l'hypothèse d'indépendance temps-fréquence et en considérant un modèle gaussien multivarié de moyenne nulle sur l'ensemble de la STFT complexe conditionnellement à la représentation latente. La matrice de covariance de ce modèle est paramétrée par son facteur de Cholesky parcimonieux qui constitue la sortie du VAE. La contrainte de parcimonie est choisie de manière à ce que les dépendances locales en temps et en fréquence puissent être exprimées. Nous évaluons la méthode proposée pour la tâche de séparation de sources sur le jeu de données WSJ0, en fonction du modèle de dépendance choisi.