Séparation de sources audio informée par apprentissage profond avec des données limitées
Auteur / Autrice : | Kilian Schulze-Forster |
Direction : | Roland Badeau, Gaël Richard |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, images, automatique et robotique |
Date : | Soutenance le 09/12/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Partenaire de recherche : Télécom Paris (Palaiseau, Essonne ; 1878-....) |
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) | |
Jury : | Président / Présidente : Emmanuel Vincent |
Examinateurs / Examinatrices : Roland Badeau, Gaël Richard, Emmanuel Vincent, Laurent Girin, Xavier Serra, Hélène-Camille Crayencour | |
Rapporteur / Rapporteuse : Laurent Girin, Xavier Serra |
Mots clés
Mots clés contrôlés
Résumé
La séparation de sources audio consiste à estimer les signaux individuels de plusieurs sources sonores lorsque seul leur mélange peut être observé. Des réseaux neuronaux profonds entraînés de manière supervisée permettent d'obtenir des résultats de l'état de l'art pour les signaux musicaux. Ils nécessitent de grandes et diverses bases de données composées de mélanges pour lesquels les signaux des sources cibles sont disponibles de manière isolée. Cependant, il est difficile et coûteux d'obtenir de tels ensembles de données car les enregistrements musicaux sont soumis à des restrictions de droits d'auteur et les enregistrements d'instruments isolés n'existent pas toujours. Dans cette thèse, nous explorons l'utilisation d'informations supplémentaires pour la séparation de sources par apprentissage profond, afin de s’affranchir d’une quantité limitée de données disponibles. D'abord, nous considérons un cadre supervisé avec seulement une petite quantité de données disponibles. Nous étudions dans quelle mesure la séparation de la voix chantée peut être améliorée lorsqu'elle est informée par des transcriptions de paroles. Nous proposons un nouveau modèle d'apprentissage profond pour la séparation de sources informée. Ce modèle permet d’aligner le texte et l'audio pendant la séparation en utilisant un nouveau mécanisme d'attention monotone. La qualité de l'alignement des paroles est compétitive par rapport à l'état de l'art, alors qu'une quantité plus faible de données est utilisée. Nous constatons que l'exploitation des phonèmes alignés peut améliorer la séparation de la voix chantée, mais un alignement précis et des transcriptions exactes sont nécessaires.Enfin, nous considérons un scénario où seuls des mélanges, mais aucun signal source isolé, sont disponibles pour l'apprentissage. Nous proposons une nouvelle approche d'apprentissage profond non supervisé. Elle exploite les informations sur les fréquences fondamentales (F0) des sources. La méthode intègre les connaissances du domaine sous la forme de modèles de sources paramétriques dans le réseau neuronal profond. L'évaluation expérimentale montre que la méthode surpasse les méthodes sans apprentissage basées sur la factorisation de matrices non négatives, ainsi qu’une approche d'apprentissage profond supervisé. La méthode proposée est extrêmement efficace en terme de données. Elle rend la séparation de sources par apprentissage profond exploitable dans des domaines où les données étiquetées sont coûteuses ou inexistantes.