Séparation et déreverbération conjointe de locuteurs en mouvement

Louis Lalay

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Séparation et déreverbération conjointe de locuteurs en mouvement

FR |

EN

Auteur / Autrice :	Louis Lalay
Direction :	Roland Badeau
Type :	Projet de thèse
Discipline(s) :	Informatique, données, IA
Date :	Inscription en doctorat le 01/09/2023
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : Laboratoire de Traitement et Communication de l'Information
	Equipe de recherche : S2A - Statistique et Apprentissage

Mots clés

FR |

EN

Mots clés libres

Traitement du signal audio

Deréverbération

Séparation de locuteurs

Adaptation de domaine

Résumé

FR |

EN

La séparation de locuteurs en mouvement est un problème de traitement du signal consistant à séparer chaque locuteur à partir d'un enregistrement mono ou multicanal contenant plusieurs locuteurs et/ou du bruit. Ce projet cherche à employer des modèles de réverbération hérités de propriétés acoustiques et statistiques entièrement explicables pour la séparation et la déreverbération conjointes de locuteurs en mouvement. Le premier modèle employé considère non pas la réponse impulsionnelle de salle comme étant la conséquence de tous les chemins acoustiques de la source vers les microphones, mais plutôt comme le résultat du chemin direct de toutes les sources images, qui peuvent être obtenues en symétrisant de manière itérative la source en fonction des murs de la salle. Dans ce contexte, le modèle de réverbération est purement paramétrique et l'utilisation d'un modèle décrivant proprement les réflexions précoces et la réverbération tardive du signal est au centre de ce sujet de thèse. De tels coefficients estimés par le modèle de réverbération pourraient alors être incorporés à des modèles de type ''weight prediction error'' pour ainsi effectuer conjointement la séparation et la déreverbération. Une autre direction de recherche consistera à adapter de tels modèles pour la séparation et la déreverbération conjointes au cas où les locuteurs sont en mouvement. Afin d'aborder ce problème, il est possible d'attribuer la dynamique des sources en deux étapes : on peut imaginer projeter les données audios dans un espace latent dépendant du temps et de plus petite dimension. Ce dernier décrirait en pratique des caractéristiques de haut niveau. Ensuite, en conditionnant l'espace latent au modèle de réverbération, il serait alors possible de débruiter les variables latentes afin d'en extraire uniquement les composantes représentant les signaux anéchoïques recherchés pour chaque source. Ce procédé reviendrait alors par exemple à considérer un auto-encodeur variationnel dynamique (DVAE) conditionné, par le modèle de réverbération. Finalement, pour améliorer la qualité de déreverbération, il serait possible de considérer l'approche multimodale faisant usage de la vidéo combinée avec l'audio. Il peut être par exemple intéressant d'employer conjointement la vidéo et l'audio pour le débruitage avec des auto-encodeurs variationnels et des modèles antagonistes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Séparation et déreverbération conjointe de locuteurs en mouvement

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Séparation et déreverbération conjointe de locuteurs en mouvement

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses