Thèse soutenue

Séparation de sources musicales neuroguidée

FR  |  
EN
Auteur / Autrice : Giorgia Cantisani
Direction : Gaël RichardSlim Essid
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 13/12/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Partenaire de recherche : Télécom Paris (Palaiseau ; 1977-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Isabelle Bloch
Examinateurs / Examinatrices : Gaël Richard, Slim Essid, Isabelle Bloch, Shihab A. Shamma, Alexandre Gramfort, Elaine Chew, Blair Kaneshiro
Rapporteurs / Rapporteuses : Shihab A. Shamma, Alexandre Gramfort

Résumé

FR  |  
EN

Dans cette thèse, nous abordons le défi de l'utilisation d'interfaces cerveau-machine (ICM) sur l'application spécifique de la séparation de sources musicales qui vise à isoler les instruments individuels qui sont mélangés dans un enregistrement de musique. Ce problème a été étudié pendant des décennies, mais sans jamais considérer les ICM comme un moyen possible de guider et d'informer les systèmes de séparation. Plus précisément, nous avons étudié comment l'activité neuronale caractérisée par des signaux électroencéphalographiques (EEG) reflète des informations sur la source à laquelle on porte son attention et comment nous pouvons l'utiliser pour informer un système de séparation de sources.Tout d'abord, nous avons étudié le problème du décodage par l'EEG de l'attention auditive d'un instrument spécifique dans une pièce musicale polyphonique, en montrant que l'EEG suit les caractéristiques musicales pertinentes qui sont fortement corrélées avec la représentation temps-fréquence de la source à laquelle on porte l'attention et seulement faiblement corrélées avec les autres. Ensuite, nous avons exploité ce "contraste" pour informer un modèle de séparation de sources non supervisé basé sur une nouvelle variante de factorisation en matrices positives (NMF), appelée contrastive-NMF (C-NMF) et séparer automatiquement la source à laquelle on porte l'attention.La NMF non supervisée est une approche efficace dans de telles applications ne disposant pas ou peu de données d'apprentissage, comme c'est le cas dans des scénarios nécessitant des enregistrements EEG. En effet, les jeux de données EEG liés à la musique disponibles sont coûteux et longs à acquérir, ce qui exclut la possibilité d'aborder le problème par des approches d'apprentissage profond entièrement supervisées. Dans la dernière partie de la thèse, nous avons exploré des stratégies d'apprentissage alternatives. Plus précisément, nous avons étudié la possibilité d'adapter un modèle de séparation de sources de l'état de l'art à un mélange spécifique en utilisant les activations temporelles de sources dérivées de l'activité neuronale de l'utilisateur au moment du test. Cette approche peut être considérée comme étant " à adaptation unitaire" (one-shot), car l'adaptation agit uniquement sur une instance de chanson.Nous avons évalué les approches proposées sur les jeu de données MAD-EEG qui a été spécifiquement assemblé pour cette étude, obtenant des résultats encourageants, en particulier dans les cas difficiles où les modèles non informés sont mis à mal.