Thèse soutenue

Méthodes d'apprentissage profond pour le transfert de style musical

FR  |  
EN
Auteur / Autrice : Ondrej Cifka
Direction : Gaël RichardUmut Şimşekli
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 17/11/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Geoffroy Peeters
Examinateurs / Examinatrices : Gaël Richard, Umut Şimşekli, Geoffroy Peeters, Gerhard Widmer, Jean-Pierre Briot, Rachel Bittner, Antoine Liutkus
Rapporteurs / Rapporteuses : Gerhard Widmer, Jean-Pierre Briot

Résumé

FR  |  
EN

Récemment, les méthodes d'apprentissage profond ont permis d'effectuer des transformations du matériel musical basées sur les données (data-driven). L'objet de cette thèse est le transfert de style musical, dont le but est de transférer de manière automatique le style d'un morceau à un autre. Dans la première partie de ce travail, nous nous concentrons sur les méthodes supervisées pour le transfert de style des accompagnements dans une représentation symbolique, visant à transformer un morceau donné en lui générant un nouvel accompagnement. La méthode proposée est basée sur l'apprentissage supervisé de séquence à séquence à l'aide de réseaux de neurones récurrents (RNN) et s'appuie sur une base de données synthétiques parallèle (alignée par paires) générée à cet effet à l'aide d'un logiciel de génération d'accompagnement existant. Nous proposons ainsi un ensemble de mesures objectives pour évaluer la performance sur cette nouvelle tâche et nous montrons que le système réussit à générer un accompagnement dans le style souhaité tout en suivant la structure harmonique de l'entrée. Dans la deuxième partie, nous étudions une question plus fondamentale : le rôle des encodages positionnels (PE) dans la génération de musique à l'aide des Transformers. Nous proposons l'encodage positionnel stochastique (SPE), un nouveau PE capable de coder des positions relatives et compatible avec une classe récemment proposée de Transformers efficaces. Nous démontrons que le SPE permet, mieux que la méthode conventionnelle (le PE absolu), de modéliser des séquences plus longues que celles rencontrées pendant l'entraînement.Enfin, dans la troisième partie, nous passons de la musique symbolique à l'audio et abordons le problème du transfert de timbre. Plus précisément, nous nous intéressons à transférer le timbre d'un enregistrement audio à un autre, tout en préservant le contenu mélodique et harmonique de ce dernier. Nous présentons une nouvelle méthode pour cette tâche, basée sur une extension de l'autoencodeur variationnel quantifié (VQ-VAE), ainsi qu'une stratégie d'apprentissage auto-supervisé conçue pour obtenir des représentations démêlées du timbre et de la hauteur. Comme dans la première partie, nous concevons un ensemble de métriques objectives pour la tâche. Nous montrons que la méthode proposée est capable de surpasser des méthodes existantes.