Thèse soutenue

Modèles adaptifs sinusoïdaux de parole avec des applications sur la modification de la parole et l'analyse audio

FR  |  
EN
Auteur / Autrice : George Kafentzis
Direction : Olivier BoëffardYannis Stylianou
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et télécommunications
Date : Soutenance le 20/06/2014
Etablissement(s) : Rennes 1 en cotutelle avec Panepistī́mio Krī́tīs
Ecole(s) doctorale(s) : École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes)
Partenaire(s) de recherche : PRES : Université européenne de Bretagne (2007-2016)
Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - EXPRESSION

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La modélisation sinusoïdale est une des méthodes les plus largement utilisés paramétriques pour la parole et le traitement des signaux audio. Inspiré par le récemment introduit Modèle aQHM et Modèle aHM, nous la vue d’ensemble de la théorie de l’ adaptation sinusoïdale modélisation et nous proposons un modèle nommé la Modèle eaQHM, qui est un non modèle paramétrique de mesure d’ajuster les amplitudes et les phases instantanées de ses fonctions de base aux caractéristiques variant dans le temps de sous-jacents du signal de parole, ainsi atténuer significativement la dite hypothèse de stationnarité locale. Le eaQHM est montré à surperformer aQHM dans l’analyse et la resynthèse de la parole voisée. Sur la base de la eaQHM , un système hybride d’analyse / synthèse de la parole est présenté (eaQHNM), et aussi d’ une version hybride de l’ aHM (aHNM). En outre, nous présentons la motivation pour une représentation pleine bande de la parole en utilisant le eaQHM, c’est, représentant toutes les parties du discours comme haute résolution des sinusoıdes AM-FM. Les expériences montrent que l’adaptation et la quasi-harmonicité est suffisante pour fournir une qualité de transparence dans la parole non voisée resynthèse. La pleine bande analyse eaQHM et système de synthèse est présenté à côté, ce qui surpasse l’état de l’art des systèmes, hybride ou pleine bande, dans la reconstruction de la parole, offrant une qualité transparente confirmé par des évaluations objectives et subjectives. En ce qui concerne les applications, le eaQHM et l’ aHM sont appliquées sur les modifications de la parole (de temps et pas mise à l’échelle). Les modifications qui en résultent sont de haute qualité, et suivent des règles très simples, par rapport à d’autres systèmes de modification état de l’art. Les résultats montrent que harmonicité est préféré au quasi- harmonicité de modifications de la parole du fait de la simplicité de la représentation intégrée. En outre, la pleine bande eaQHM est appliquée sur le problème de la modélisation des signaux audio, et en particulier d’instrument de musique retentit. Le eaQHM est évaluée et comparée à des systèmes à la pointe de la technologie, et leur est montré surpasser en termes de qualité de resynthèse, représentant avec succès l’attaque , transitoire, et une partie stationnaire d’un son d’instruments de musique. Enfin, une autre application est suggéré, à savoir l’analyse et la classification des discours émouvant. Le eaQHM est appliqué sur l’analyse des discours émouvant, offrant à ses paramètres instantanés comme des caractéristiques qui peuvent être utilisés dans la reconnaissance et la quantification vectorielle à base classification du contenu émotionnel de la parole. Bien que les modèles sinusoidaux sont pas couramment utilisés dans ces tâches, les résultats sont prometteurs.