Identification du locuteur par apprentissage profond en conditions réelles
Auteur / Autrice : | Sandipana Dowerah |
Direction : | Romain Serizel |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 30/05/2023 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications |
Jury : | Président / Présidente : Frédéric Sur |
Examinateurs / Examinatrices : Romain Serizel, Sylvain Meignier, Sylvain Marchand, Denis Jouvet, Nancy Bertin | |
Rapporteurs / Rapporteuses : Sylvain Meignier, Sylvain Marchand |
Mots clés
Résumé
Les applications telles que la vérification du locuteur sont devenues essentielles pour vérifier l'identité de l'utilisateur à partir de ses caractéristiques vocales pour des assistants personnels ou des services bancaires en ligne. Cependant, la vérification du locuteur avec une prise de son distante est constamment affectée par les bruits environnants qui peuvent considérablement déformer le signal vocal. De plus, les signaux vocaux sont réfléchis par divers objets dans la zone environnante, ce qui crée de la réverbération et dégrade encore plus la qualité du signal. Cette thèse explore les techniques de rehaussement de la parole à multicanal basées sur l'apprentissage profond pour améliorer les performances des systèmes de vérification de locuteur dans des conditions réelles. Le rehaussement de la parole multicanal vise à améliorer la qualité de la parole captée par plusieurs microphones. Elle est devenue cruciale pour de nombreux terminaux, qui sont flexibles et pratiques pour les applications vocales. Trois approches novatrices sont proposées pour améliorer la robustesse au bruit du système de vérification de locuteur. Tout d'abord, nous intégrons une architecture de réseau neuronal profond avec des techniques de traitement du signal pour le rehaussement de la parole en tant que prétraitement d'un système de vérification de locuteur basé sur les x-vecteurs. Nous examinons l'importance d'effectuer aussi un prétraitement pendant la phase d'enrôlement du locuteur, ce qui a été largement négligé dans la littérature. L'évaluation expérimentale montre que le prétraitement les performances de vérification de locuteur si les fichiers d'enrôlement sont traités de manière similaire à ceux de test,et si le test et l'enregistrement se font dans des plages de signal à bruit similaires. Nous proposons ensuite de mettre en œuvre des modèles de diffusion probabilistes basés sur des scores pour le rehaussement de parole multicanal en tant que front-end d'un système ECAPA-TDNN de vérification de locuteur. Nous mettons particulièrement l'accent sur les techniques de rehaussement de parole multicanal. Nous utilisons des approches de diffusion probabilistes pour calculer soit des masques temps-fréquence, soit des filtres multicanaux. Comme l'entraînement séparé du module de rehaussement de la parole introduit souvent des artefacts et des distorsions, cela entraine une inadéquation pour la vérification du locuteur. Nous proposons une optimisation conjointe pour pallier à ce problème. Nous avons étendu les approches mentionnées ci-dessus en optimisant conjointement les modèles de rehaussement de la parole et de vérification de locuteur avec ou sans prise en compte d'un critère de distillation de connaissances. Ce critère de distillation de connaissances minimise la distance entre les plongements de locuteur obtenus à partir du système proposé et ceux obtenus à partir de signaux de parole propres (non bruités), améliorant ainsi les performances du système de vérification de locuteur dans différentes conditions de bruit.