Thèse soutenue

Opérateurs convolutionnels dans le plan temps-fréquence

FR  |  
EN
Auteur / Autrice : Vincent Lostanlen
Direction : Stéphane Mallat
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 02/02/2017
Etablissement(s) : Paris Sciences et Lettres (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
Etablissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Hervé Glotin
Examinateurs / Examinatrices : Stéphane Mallat, Hervé Glotin, Geoffroy Peeters, Mathieu Lagrange, Shihab A. Shamma
Rapporteur / Rapporteuse : Geoffroy Peeters, Gaël Richard

Résumé

FR  |  
EN

Dans le cadre de la classification de sons,cette thèse construit des représentations du signal qui vérifient des propriétés d’invariance et de variabilité inter-classe. D’abord, nous étudions le scattering temps- fréquence, une représentation qui extrait des modulations spectrotemporelles à différentes échelles. Enclassification de sons urbains et environnementaux, nous obtenons de meilleurs résultats que les réseaux profonds à convolutions et les descripteurs à court terme. Ensuite, nous introduisons le scattering en spirale, une représentation qui combine des transformées en ondelettes selon le temps, selon les log-fréquences, et à travers les octaves. Le scattering en spirale suit la géométrie de la spirale de Shepard, qui fait un tour complet à chaque octave. Nous étudions les sons voisés avec un modèle source-filtre non stationnaire dans lequel la source et le filtre sont transposés au cours du temps, et montrons que le scattering en spirale sépare et linéarise ces transpositions. Le scattering en spirale améliore lesperformances de l’état de l’art en classification d’instruments de musique. Outre la classification de sons, le scattering temps-fréquence et le scattering en spirale peuvent être utilisés comme des descripteurspour la synthèse de textures audio. Contrairement au scattering temporel, le scattering temps-fréquence est capable de capturer la cohérence de motifs spectrotemporels en bioacoustique et en parole, jusqu’à une échelle d’intégration de 500 ms environ. À partir de ce cadre d’analyse-synthèse, une collaboration artscience avec le compositeur Florian Hecker