Thèse soutenue

Méthodes d'Apprentissage Profond pour l'Analyse de Structures Musicales : Adresser le Manque et l'Ambiguïté des Données

FR  |  
EN
Auteur / Autrice : Morgan Buisson
Direction : Slim Essid
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 06/11/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Jury : Président / Présidente : Axel Roebel
Examinateurs / Examinatrices : Axel Roebel, Mathieu Lagrange, Matthias Mauch, Joan Serrà
Rapporteurs / Rapporteuses : Mathieu Lagrange, Matthias Mauch

Résumé

FR  |  
EN

L’analyse de la structure à partir du signal audio consiste à identifier automatiquement les différentes sections musicales d’un morceau. Parce que plusieurs facteurs peuvent influencer la perception humaine de l’organisation d’un morceau, la structure musicale est par nature assujettie aux problèmes d’ambiguïté et de subjectivité. Au cours de cette thèse, ces caractéristiques de la structure musicale sont mises au premier plan de nos travaux. Nous explorons différents axes de recherche dont le but est de les intégrer explicitement dans le processus d’analyse. Les méthodes proposées dans cette thèse reposent sur différents niveaux de supervision, à la fois sur des heuristiques liées à la continuité temporelle de la musique, sur des informations extraites du signal audio ou sur des données dont la structure a été annotée. D’abord, nous nous concentrons sur la première étape de l’analyse de structure qui est l’extraction de descripteurs audios à partir du signal en entrée. Nous privilégions des approches d’apprentissage dites auto-supervisées qui peuvent utiliser de larges quantités de données non annotées. D’une part, nous proposons une méthode directement inspirée de l’organisation hiérarchique de la structure musicale. D’autre part, nous étendons cette approche en nous basant directement sur la notion de répétition, où cette dernière est utilisée comme biais inductif pour informer l’échantillonnage d’exemples lors de l’entraînement. Nous considérons ensuite le scenario dans lequel un ensemble de morceaux a été annoté. Nous étudions comment les représentations pré-entrainées peuvent être adaptées à ce jeu de données et les cas dans lesquels l’utilisation d’annotations peut en fait réduire la qualité des prédictions de segmentation. Enfin, nous proposons une approche complètement supervisée pour l’analyse de structure, basée sur les réseaux de neurones par graphes. Cette méthode repose principalement sur la classification des liens entre chaque pair d’instants à l’intérieur d’un morceau. Cette dernière permet l’extraction d’information structurelle qui est bénéfique à la prédiction de frontières entre segments musicaux et le type de sections auxquelles ils appartiennent. Nos méthodes sont évaluées sur des jeux de données standards pour l’analyse de structure musicale et comparées à des méthodes récentes. Nos résultats démontrent que prendre en compte explicitement les problèmes de biais liés aux annotations de structure peuvent aider à formuler des systèmes plus robustes, dont la performance est comparable aux travaux précédents, tout en utilisant peu de données annotées d’entraînement.