Séparation et déreverbération conjointe de locuteurs en mouvement
Auteur / Autrice : | Louis Lalay |
Direction : | Roland Badeau |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Inscription en doctorat le 01/09/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Traitement et Communication de l'Information |
Equipe de recherche : S2A - Statistique et Apprentissage |
Mots clés
Résumé
La séparation de locuteurs en mouvement est un problème de traitement du signal consistant à séparer chaque locuteur à partir d'un enregistrement mono ou multicanal contenant plusieurs locuteurs et/ou du bruit. Ce projet cherche à employer des modèles de réverbération hérités de propriétés acoustiques et statistiques entièrement explicables pour la séparation et la déreverbération conjointes de locuteurs en mouvement. Le premier modèle employé considère non pas la réponse impulsionnelle de salle comme étant la conséquence de tous les chemins acoustiques de la source vers les microphones, mais plutôt comme le résultat du chemin direct de toutes les sources images, qui peuvent être obtenues en symétrisant de manière itérative la source en fonction des murs de la salle. Dans ce contexte, le modèle de réverbération est purement paramétrique et l'utilisation d'un modèle décrivant proprement les réflexions précoces et la réverbération tardive du signal est au centre de ce sujet de thèse. De tels coefficients estimés par le modèle de réverbération pourraient alors être incorporés à des modèles de type ''weight prediction error'' pour ainsi effectuer conjointement la séparation et la déreverbération. Une autre direction de recherche consistera à adapter de tels modèles pour la séparation et la déreverbération conjointes au cas où les locuteurs sont en mouvement. Afin d'aborder ce problème, il est possible d'attribuer la dynamique des sources en deux étapes : on peut imaginer projeter les données audios dans un espace latent dépendant du temps et de plus petite dimension. Ce dernier décrirait en pratique des caractéristiques de haut niveau. Ensuite, en conditionnant l'espace latent au modèle de réverbération, il serait alors possible de débruiter les variables latentes afin d'en extraire uniquement les composantes représentant les signaux anéchoïques recherchés pour chaque source. Ce procédé reviendrait alors par exemple à considérer un auto-encodeur variationnel dynamique (DVAE) conditionné, par le modèle de réverbération. Finalement, pour améliorer la qualité de déreverbération, il serait possible de considérer l'approche multimodale faisant usage de la vidéo combinée avec l'audio. Il peut être par exemple intéressant d'employer conjointement la vidéo et l'audio pour le débruitage avec des auto-encodeurs variationnels et des modèles antagonistes.