Robustesse des systèmes de reconnaissance de locuteurs basés sur DNN face aux variabilités de l'environnement
Auteur / Autrice : | Mohammad Mohammadamini |
Direction : | Driss Matrouf |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 15/05/2023 |
Etablissement(s) : | Avignon |
Ecole(s) doctorale(s) : | École doctorale Sciences et agrosciences (Avignon) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique d'Avignon |
Jury : | Président / Présidente : Fabrice Lefèvre |
Examinateurs / Examinatrices : Mickaël Rouvier, Irina Illina, Claude Barras, Jean-François Bonastre | |
Rapporteur / Rapporteuse : Anthony Larcher, Matejka Pavel |
Résumé
Les systèmes de reconnaissance du locuteur ont pour objectif d'authentifier des locuteurs à partir de leurs énoncés vocaux. Afin d'authentifier un utilisateur revendiqué, il est nécessaire d'obtenir une représentation de chaque énoncé, sous la forme d'un vecteur de taille fixe, contenant l’information permettant la séparation des locuteurs. Malgré la robustesse relative des systèmes de reconnaissance de locuteurs basés sur des RNP, leurs performances se dégradent en présence de variabilités acoustiques telles que du bruit additif et de la réverbération. Cette thèse se concentre sur la robustesse, face aux bruits additifs et aux réverbérations, des systèmes de reconnaissances du locuteur indépendante du texte, basés sur les RNP. La première partie de notre travail (Chapitre 5) consiste à proposer plusieurs Auto-Encodeurs de Débruitage (AED) (Pile d'AED, AED Gaussien) pour compenser le bruit au niveau des embeddings. Ces systèmes effectuent la transformation entre des embeddings, extraits avec le système TDNN, bruités et leur version propre. Ces modules de compensation de bruit sont testés dans le cas de bruits additifs (bruits inconnues, bruits spécifiques), de distorsions de réverbération précoce et de réverbération tardive. Dans la Chapitre 6, le comportement des systèmes de reconnaissance de locuteur de type ResNet face au bruit et à la réverbération est étudié et comparé au système de type TDNN. Nous étudions également la compensation du bruit sur des embeddings extraits par ResNet dans deux cas : 1) la compensation d'un bruit artificiel avec des données artificielles et 2) la compensation d'un bruit réel avec des données artificielles. Le deuxième cas est le scénario le plus intéressant car il permet d'entraîner le système de débruitage sans disposer de données réelles. Les résultats expérimentaux montrent que dans le premier scénario, la compensation du bruit donne une amélioration significative pour des embeddings de type TDNN mais pas pour des embeddings de type ResNet. Dans la plupart des cas, les performances de ResNet sans compensation sont supérieures au TDNN avec compensation de bruit. Dans la Chapitre 7, se concentre sur l'apprentissage de systèmes d'extraction d'embeddings du locuteurs robustes au bruit. Nous proposons deux systèmes de reconnaissance du locuteur basés sur des ResNet qui rendent l'intégration du locuteur plus robuste contre le bruit additif et la réverbération. Le but des systèmes proposés est d’éviter la propagation du bruit du signal à l'embedding. De cette manière, les embeddings extraits dans des environnements bruités sont proches de leur version extraite dans un environnement non-bruité. Le premier système proposé apprend la même distribution pour les environnements bruyants et propres. La seconde propose un système qui impose aux embeddings de locuteurs pour environnement bruité de se déplacer vers la distribution du système le mieux obtenu dans l'environnement propre. Dans différentes situations avec des bruits réels et simulés et des conditions de réverbération, les systèmes modifiés surpassent le système ResNet de base. Dans la Chapitre 8, nous avons proposé un système de reconnaissance du locuteur, de type ResNet, auto-supervisé et robuste au bruit, basé sur la fonction de perte Barlow Twins. La fonction de coût de type Barlow Twins essaie d'optimiser deux critères. Premièrement, elle augmente la similarité entre deux versions du même signal (c'est-à-dire la version propre et sa version bruitée augmentée) pour rendre les embeddings invariants au bruit acoustique. Deuxièmement, elle réduit la redondance entre les dimensions des embeddings, ce qui améliore la qualité globale des embeddings de locuteurs.