Thèse soutenue

Séparation de sources audio informée par apprentissage profond avec des données limitées

FR  |  
EN
Auteur / Autrice : Kilian Schulze-Forster
Direction : Roland BadeauGaël Richard
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 09/12/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Partenaire de recherche : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Emmanuel Vincent
Examinateurs / Examinatrices : Roland Badeau, Gaël Richard, Emmanuel Vincent, Laurent Girin, Xavier Serra, Hélène-Camille Crayencour
Rapporteur / Rapporteuse : Laurent Girin, Xavier Serra

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

La séparation de sources audio consiste à estimer les signaux individuels de plusieurs sources sonores lorsque seul leur mélange peut être observé. Des réseaux neuronaux profonds entraînés de manière supervisée permettent d'obtenir des résultats de l'état de l'art pour les signaux musicaux. Ils nécessitent de grandes et diverses bases de données composées de mélanges pour lesquels les signaux des sources cibles sont disponibles de manière isolée. Cependant, il est difficile et coûteux d'obtenir de tels ensembles de données car les enregistrements musicaux sont soumis à des restrictions de droits d'auteur et les enregistrements d'instruments isolés n'existent pas toujours. Dans cette thèse, nous explorons l'utilisation d'informations supplémentaires pour la séparation de sources par apprentissage profond, afin de s’affranchir d’une quantité limitée de données disponibles. D'abord, nous considérons un cadre supervisé avec seulement une petite quantité de données disponibles. Nous étudions dans quelle mesure la séparation de la voix chantée peut être améliorée lorsqu'elle est informée par des transcriptions de paroles. Nous proposons un nouveau modèle d'apprentissage profond pour la séparation de sources informée. Ce modèle permet d’aligner le texte et l'audio pendant la séparation en utilisant un nouveau mécanisme d'attention monotone. La qualité de l'alignement des paroles est compétitive par rapport à l'état de l'art, alors qu'une quantité plus faible de données est utilisée. Nous constatons que l'exploitation des phonèmes alignés peut améliorer la séparation de la voix chantée, mais un alignement précis et des transcriptions exactes sont nécessaires.Enfin, nous considérons un scénario où seuls des mélanges, mais aucun signal source isolé, sont disponibles pour l'apprentissage. Nous proposons une nouvelle approche d'apprentissage profond non supervisé. Elle exploite les informations sur les fréquences fondamentales (F0) des sources. La méthode intègre les connaissances du domaine sous la forme de modèles de sources paramétriques dans le réseau neuronal profond. L'évaluation expérimentale montre que la méthode surpasse les méthodes sans apprentissage basées sur la factorisation de matrices non négatives, ainsi qu’une approche d'apprentissage profond supervisé. La méthode proposée est extrêmement efficace en terme de données. Elle rend la séparation de sources par apprentissage profond exploitable dans des domaines où les données étiquetées sont coûteuses ou inexistantes.