Thèse en cours

[MELODIA] Séparation de sources audio de musique à l'aide de réseau de neurones interprétables

FR  |  
EN
Auteur / Autrice : Dylan Sechet
Direction : Matthieu Kowalski
Type : Projet de thèse
Discipline(s) : Sciences du traitement du signal et des images
Date : Inscription en doctorat le 01/10/2025
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Interdisciplinaire des Sciences du Numérique
Equipe de recherche : A&O - Apprentissage et Optimisation
Référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

Ce projet vise à faire progresser la séparation des sources musicales, qui consiste à isoler des sources sonores individuelles (par exemple, la voix, les instruments) à partir d'un signal audio mixé. Bien que des modèles d'apprentissage profond tels que DEMUCS et Wave-U-Net atteignent des performances élevées, ils manquent souvent d'interprétabilité et nécessitent un réentraînement pour de nouveaux ensembles de données. Cette thèse a pour objectif de développer un cadre d'IA interprétable en intégrant des techniques telles que l'optimisation déroulée et les modèles temps-fréquence de faible rang. En exploitant la structure intrinsèque des signaux audio, cette approche vise à concevoir des algorithmes de séparation adaptatifs et explicables, capables de généraliser à divers genres musicaux. Le projet comparera ces méthodes aux modèles existants afin d'évaluer leurs performances.