Thèse soutenue

Identification du locuteur par apprentissage profond en conditions réelles

FR  |  
EN
Auteur / Autrice : Sandipana Dowerah
Direction : Romain Serizel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/05/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Frédéric Sur
Examinateurs / Examinatrices : Romain Serizel, Sylvain Meignier, Sylvain Marchand, Denis Jouvet, Nancy Bertin
Rapporteurs / Rapporteuses : Sylvain Meignier, Sylvain Marchand

Résumé

FR  |  
EN

Les applications telles que la vérification du locuteur sont devenues essentielles pour vérifier l'identité de l'utilisateur à partir de ses caractéristiques vocales pour des assistants personnels ou des services bancaires en ligne. Cependant, la vérification du locuteur avec une prise de son distante est constamment affectée par les bruits environnants qui peuvent considérablement déformer le signal vocal. De plus, les signaux vocaux sont réfléchis par divers objets dans la zone environnante, ce qui crée de la réverbération et dégrade encore plus la qualité du signal. Cette thèse explore les techniques de rehaussement de la parole à multicanal basées sur l'apprentissage profond pour améliorer les performances des systèmes de vérification de locuteur dans des conditions réelles. Le rehaussement de la parole multicanal vise à améliorer la qualité de la parole captée par plusieurs microphones. Elle est devenue cruciale pour de nombreux terminaux, qui sont flexibles et pratiques pour les applications vocales. Trois approches novatrices sont proposées pour améliorer la robustesse au bruit du système de vérification de locuteur. Tout d'abord, nous intégrons une architecture de réseau neuronal profond avec des techniques de traitement du signal pour le rehaussement de la parole en tant que prétraitement d'un système de vérification de locuteur basé sur les x-vecteurs. Nous examinons l'importance d'effectuer aussi un prétraitement pendant la phase d'enrôlement du locuteur, ce qui a été largement négligé dans la littérature. L'évaluation expérimentale montre que le prétraitement les performances de vérification de locuteur si les fichiers d'enrôlement sont traités de manière similaire à ceux de test,et si le test et l'enregistrement se font dans des plages de signal à bruit similaires. Nous proposons ensuite de mettre en œuvre des modèles de diffusion probabilistes basés sur des scores pour le rehaussement de parole multicanal en tant que front-end d'un système ECAPA-TDNN de vérification de locuteur. Nous mettons particulièrement l'accent sur les techniques de rehaussement de parole multicanal. Nous utilisons des approches de diffusion probabilistes pour calculer soit des masques temps-fréquence, soit des filtres multicanaux. Comme l'entraînement séparé du module de rehaussement de la parole introduit souvent des artefacts et des distorsions, cela entraine une inadéquation pour la vérification du locuteur. Nous proposons une optimisation conjointe pour pallier à ce problème. Nous avons étendu les approches mentionnées ci-dessus en optimisant conjointement les modèles de rehaussement de la parole et de vérification de locuteur avec ou sans prise en compte d'un critère de distillation de connaissances. Ce critère de distillation de connaissances minimise la distance entre les plongements de locuteur obtenus à partir du système proposé et ceux obtenus à partir de signaux de parole propres (non bruités), améliorant ainsi les performances du système de vérification de locuteur dans différentes conditions de bruit.