Inclusion de mémoire explicite pour l'extension efficace et artificielle de bande passante
Auteur / Autrice : | Pramod Bachhav |
Direction : | Nicholas W. D. Evans |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences mécaniques, acoustique, électronique et robotique |
Date : | Soutenance le 14/11/2019 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Marc Dacier |
Examinateurs / Examinatrices : Bäckström Tom, Aurélie Donjon, Christophe Beaugeant | |
Rapporteur / Rapporteuse : Tim Fingscheidt, Bäckström Tom |
Résumé
La plupart des algorithmes ABE exploitent les informations contextuelles ou la mémoire capturée via l'utilisation de caractéristiques statiques ou dynamiques extraites de trames de parole voisines. L'utilisation de la mémoire entraîne des caractéristiques dimensionnelles plus élevées et une complexité informatique accrue. Lorsque les informations provenant de trames de prévisualisation sont également utilisées, la latence augmente également. Les travaux antérieurs montrent l'avantage pour ABE d'exploiter la mémoire sous la forme d'entités dynamiques avec un modèle de régression standard. Même dans ce cas, la littérature manque d'une analyse quantitative de l'avantage relatif de l'inclusion de mémoire explicite. La recherche présentée dans cette thèse évalue dans quelle mesure la mémoire explicite est utile et rapporte en outre un certain nombre de techniques différentes qui permettent son inclusion sans augmentation significative de la latence et de la complexité de calcul. Les avantages sont démontrés à la fois par une analyse quantitative avec une mesure basée sur la théorie de l'information et par des tests d'écoute subjectifs. Les principales contributions concernent la préservation de l'efficacité des calculs grâce à l'utilisation de la réduction de dimensionnalité sous la forme d'une analyse en composantes principales, d'auto-encodeurs superposés semi-supervisés et d'auto-encodeurs variationnels conditionnels. Les deux dernières techniques optimisent la réduction de la dimensionnalité pour offrir une performance ABE supérieure.