[MELODIA] Séparation de sources audio de musique à l'aide de réseau de neurones interprétables
| Auteur / Autrice : | Dylan Sechet |
| Direction : | Matthieu Kowalski |
| Type : | Projet de thèse |
| Discipline(s) : | Sciences du traitement du signal et des images |
| Date : | Inscription en doctorat le 01/10/2025 |
| Etablissement(s) : | université Paris-Saclay |
| Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire Interdisciplinaire des Sciences du Numérique |
| Equipe de recherche : A&O - Apprentissage et Optimisation | |
| Référent : Faculté des sciences d'Orsay |
Mots clés
Résumé
Ce projet vise à faire progresser la séparation des sources musicales, qui consiste à isoler des sources sonores individuelles (par exemple, la voix, les instruments) à partir d'un signal audio mixé. Bien que des modèles d'apprentissage profond tels que DEMUCS et Wave-U-Net atteignent des performances élevées, ils manquent souvent d'interprétabilité et nécessitent un réentraînement pour de nouveaux ensembles de données. Cette thèse a pour objectif de développer un cadre d'IA interprétable en intégrant des techniques telles que l'optimisation déroulée et les modèles temps-fréquence de faible rang. En exploitant la structure intrinsèque des signaux audio, cette approche vise à concevoir des algorithmes de séparation adaptatifs et explicables, capables de généraliser à divers genres musicaux. Le projet comparera ces méthodes aux modèles existants afin d'évaluer leurs performances.