Thèse soutenue

Inclusion de mémoire explicite pour l'extension efficace et artificielle de bande passante

FR  |  
EN
Auteur / Autrice : Pramod Bachhav
Direction : Nicholas W. D. Evans
Type : Thèse de doctorat
Discipline(s) : Sciences mécaniques, acoustique, électronique et robotique
Date : Soutenance le 14/11/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Marc Dacier
Examinateurs / Examinatrices : Bäckström Tom, Aurélie Donjon, Christophe Beaugeant
Rapporteur / Rapporteuse : Tim Fingscheidt, Bäckström Tom

Résumé

FR  |  
EN

La plupart des algorithmes ABE exploitent les informations contextuelles ou la mémoire capturée via l'utilisation de caractéristiques statiques ou dynamiques extraites de trames de parole voisines. L'utilisation de la mémoire entraîne des caractéristiques dimensionnelles plus élevées et une complexité informatique accrue. Lorsque les informations provenant de trames de prévisualisation sont également utilisées, la latence augmente également. Les travaux antérieurs montrent l'avantage pour ABE d'exploiter la mémoire sous la forme d'entités dynamiques avec un modèle de régression standard. Même dans ce cas, la littérature manque d'une analyse quantitative de l'avantage relatif de l'inclusion de mémoire explicite. La recherche présentée dans cette thèse évalue dans quelle mesure la mémoire explicite est utile et rapporte en outre un certain nombre de techniques différentes qui permettent son inclusion sans augmentation significative de la latence et de la complexité de calcul. Les avantages sont démontrés à la fois par une analyse quantitative avec une mesure basée sur la théorie de l'information et par des tests d'écoute subjectifs. Les principales contributions concernent la préservation de l'efficacité des calculs grâce à l'utilisation de la réduction de dimensionnalité sous la forme d'une analyse en composantes principales, d'auto-encodeurs superposés semi-supervisés et d'auto-encodeurs variationnels conditionnels. Les deux dernières techniques optimisent la réduction de la dimensionnalité pour offrir une performance ABE supérieure.