Méthodes d'Apprentissage Profond pour l'Analyse de Structures Musicales : Adresser le Manque et l'Ambiguïté des Données
Auteur / Autrice : | Morgan Buisson |
Direction : | Slim Essid |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, images, automatique et robotique |
Date : | Soutenance le 06/11/2024 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information |
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) | |
Jury : | Président / Présidente : Axel Roebel |
Examinateurs / Examinatrices : Axel Roebel, Mathieu Lagrange, Matthias Mauch, Joan Serrà | |
Rapporteurs / Rapporteuses : Mathieu Lagrange, Matthias Mauch |
Mots clés
Résumé
L’analyse de la structure à partir du signal audio consiste à identifier automatiquement les différentes sections musicales d’un morceau. Parce que plusieurs facteurs peuvent influencer la perception humaine de l’organisation d’un morceau, la structure musicale est par nature assujettie aux problèmes d’ambiguïté et de subjectivité. Au cours de cette thèse, ces caractéristiques de la structure musicale sont mises au premier plan de nos travaux. Nous explorons différents axes de recherche dont le but est de les intégrer explicitement dans le processus d’analyse. Les méthodes proposées dans cette thèse reposent sur différents niveaux de supervision, à la fois sur des heuristiques liées à la continuité temporelle de la musique, sur des informations extraites du signal audio ou sur des données dont la structure a été annotée. D’abord, nous nous concentrons sur la première étape de l’analyse de structure qui est l’extraction de descripteurs audios à partir du signal en entrée. Nous privilégions des approches d’apprentissage dites auto-supervisées qui peuvent utiliser de larges quantités de données non annotées. D’une part, nous proposons une méthode directement inspirée de l’organisation hiérarchique de la structure musicale. D’autre part, nous étendons cette approche en nous basant directement sur la notion de répétition, où cette dernière est utilisée comme biais inductif pour informer l’échantillonnage d’exemples lors de l’entraînement. Nous considérons ensuite le scenario dans lequel un ensemble de morceaux a été annoté. Nous étudions comment les représentations pré-entrainées peuvent être adaptées à ce jeu de données et les cas dans lesquels l’utilisation d’annotations peut en fait réduire la qualité des prédictions de segmentation. Enfin, nous proposons une approche complètement supervisée pour l’analyse de structure, basée sur les réseaux de neurones par graphes. Cette méthode repose principalement sur la classification des liens entre chaque pair d’instants à l’intérieur d’un morceau. Cette dernière permet l’extraction d’information structurelle qui est bénéfique à la prédiction de frontières entre segments musicaux et le type de sections auxquelles ils appartiennent. Nos méthodes sont évaluées sur des jeux de données standards pour l’analyse de structure musicale et comparées à des méthodes récentes. Nos résultats démontrent que prendre en compte explicitement les problèmes de biais liés aux annotations de structure peuvent aider à formuler des systèmes plus robustes, dont la performance est comparable aux travaux précédents, tout en utilisant peu de données annotées d’entraînement.