Apprentissage de représentations de la parole et du locuteur pour une reconnaissance robuste du locuteur et de la langue
FR |
EN
Auteur / Autrice : | Théo Lepage |
Direction : | Thierry Geraud |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 02/11/2022 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Recherche de l'EPITA |
Mots clés
FR |
EN
Résumé
FR |
EN
Apprendre des modèles de représentation de la parole ou du locuteur pour des tâches de traitement de la parole est très difficile. Généralement, nous voulons que les représentations de discours apprises soient désenchevêtrées, invariantes et hiérarchiques. Étant donné que les énoncés parlés contiennent, en plus du contenu phonétique, des informations sur l'identité du locuteur, son style, son émotion, le bruit environnant et le bruit du canal de communication, il est essentiel d'apprendre des représentations qui démêlent ces facteurs de variation.