Thèse soutenue

Synthèse de textures sonores à partir de statistiques temps-fréquence

FR  |  
EN
Auteur / Autrice : Hugo Caracalla
Direction : Axel Roebel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/12/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Sciences et technologies de la musique et du son (Paris ; 1983-....)
Jury : Président / Présidente : Carlos Agón
Examinateurs / Examinatrices : Elaine Chew, Patrick Pérez
Rapporteurs / Rapporteuses : Joshua Reiss, Lonce Wyse

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les textures sonores sont une catégorie de sons incluant le bruit de la pluie, le brouhaha d’une foule ou les pépiements d’un groupe d’oiseaux. Tous ces sons contiennent une part d’imprévisibilité qui n’est habituellement pas recherchée en synthèse sonore, et rend ainsi indispensable l’utilisation d’algorithmes dédiés. Cependant, la grande diversité de leurs propriétés complique la création d’un algorithme capable de synthétiser un large panel de textures. Cette thèse s’intéresse à la synthèse paramétrique de textures sonores. Dans ce paradigme, un ensemble de statistiques sont extraites d’une texture cible et progressivement imposées sur un bruit blanc. Si l’ensemble de statistiques est pertinent, le bruit blanc est alors modifié jusqu’à ressembler à la cible, donnant l’illusion d’avoir été enregistré quelques instants après. Dans un premier temps, nous proposons l’amélioration d’une méthode paramétrique basée sur des statistiques perceptuelles. Cette amélioration vise à améliorer la synthèse d’évènements à forte attaque ou singuliers en modifiant et simplifiant le processus d’imposition. Dans un second temps, nous adaptons une méthode paramétrique de synthèse de textures visuelles basée sur des statistiques extraites par un réseau de neurones convolutifs (CNN) afin de l’utiliser sur des textures sonores. Nous modifions l’ensemble de statistiques utilisées afin de mieux correspondre aux propriétés des signaux sonores, changeons l’architecture du CNN pour l’adapter aux événements présents dans les textures sonores et utilisons une représentation temps-fréquence prenant en compte à la fois amplitude et phase.