Conversion de l’identité de la voix par modélisation et transformation de caractéristiques étendues de la voix
Auteur / Autrice : | Stefan Huber |
Direction : | Axel Roebel |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement du signal |
Date : | Soutenance le 11/09/2015 |
Etablissement(s) : | Paris 6 |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Sciences et technologies de la musique et du son (Paris ; 1983-....) |
Jury : | Président / Présidente : Olivier Adam |
Examinateurs / Examinatrices : Antonio Bonafonte, Thomas Drugman, Marius Cotescu | |
Rapporteurs / Rapporteuses : Christophe d' Alessandro, Yannis Stylianou |
Mots clés
Résumé
La Conversion de la Voix (VC) vise à transformer les caractéristiques de la voix d’un locuteur source de manière qu’il sera perçu comme étant prononcé par un locuteur cible. Le principe de la VC est de définir des fonctions du transposition pour la conversion de la voix de l’un locuteur source à la voix de l’un locuteur cible. Les fonctions de transformation de VC systèmes ''State-Of-The-Art'' (START) adapte instantanément aux caractéristiques de la voix source. Cependant, la qualité est pas encore suffisant. Des améliorations considérables sont nécessaires que les techniques VC peuvent être utilisés dans un environnement industriel professionnel. L’objectif de cette thèse est d’augmenter la qualité de la conversion de la voix pour faciliter son applicabilité industrielle dans une mesure raisonnable. Les propriétés de base de différentes START algorithmes de la conversion de la voix sont discutés sur leurs avantages intrinsèques et ses déficits. Basé sur des évaluations expérimentales avec un GMM VC système la conclusion est que la plupart des systèmes VC START qui reposent sur des modèles statistiques sont, en raison de l’effet en moyenne de la régression linéaire, moins appropriées pour atteindre un score du similitude assez élevé avec le haut-parleur cible requise pour l’utilisation industrielle. Les contributions établies pendant de ce travail de thèse se trouvent dans les moyens étendus à a) modéliser l’excitation du source glottique, b) modéliser des descripteurs de la voix en utilisant un nouveau système de parole basée sur un modèle élargie de source-filtre, et c) avancer une nouveau système VC de l’Ircam en le combinant avec les contributions de a) et b).