Deep Learning Methods for Music Structure Analysis : Addressing Data Scarcity and Ambiguity

Morgan Buisson

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Méthodes d'Apprentissage Profond pour l'Analyse de Structures Musicales : Adresser le Manque et l'Ambiguïté des Données

FR |

EN

Auteur / Autrice :	Morgan Buisson
Direction :	Slim Essid
Type :	Thèse de doctorat
Discipline(s) :	Signal, images, automatique et robotique
Date :	Soutenance le 06/11/2024
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
	Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Jury :	Président / Présidente : Axel Roebel
	Examinateurs / Examinatrices : Axel Roebel, Mathieu Lagrange, Matthias Mauch, Joan Serrà
	Rapporteurs / Rapporteuses : Mathieu Lagrange, Matthias Mauch

Mots clés

FR |

EN

Mots clés contrôlés

Traitement du signal -- Techniques numériques

Exploration de données

Musique

Apprentissage profond

Mots clés libres

Traitement du signal

Extraction d’informations musicales

Apprentissage profond

Résumé

FR |

EN

L’analyse de la structure à partir du signal audio consiste à identifier automatiquement les différentes sections musicales d’un morceau. Parce que plusieurs facteurs peuvent influencer la perception humaine de l’organisation d’un morceau, la structure musicale est par nature assujettie aux problèmes d’ambiguïté et de subjectivité. Au cours de cette thèse, ces caractéristiques de la structure musicale sont mises au premier plan de nos travaux. Nous explorons différents axes de recherche dont le but est de les intégrer explicitement dans le processus d’analyse. Les méthodes proposées dans cette thèse reposent sur différents niveaux de supervision, à la fois sur des heuristiques liées à la continuité temporelle de la musique, sur des informations extraites du signal audio ou sur des données dont la structure a été annotée. D’abord, nous nous concentrons sur la première étape de l’analyse de structure qui est l’extraction de descripteurs audios à partir du signal en entrée. Nous privilégions des approches d’apprentissage dites auto-supervisées qui peuvent utiliser de larges quantités de données non annotées. D’une part, nous proposons une méthode directement inspirée de l’organisation hiérarchique de la structure musicale. D’autre part, nous étendons cette approche en nous basant directement sur la notion de répétition, où cette dernière est utilisée comme biais inductif pour informer l’échantillonnage d’exemples lors de l’entraînement. Nous considérons ensuite le scenario dans lequel un ensemble de morceaux a été annoté. Nous étudions comment les représentations pré-entrainées peuvent être adaptées à ce jeu de données et les cas dans lesquels l’utilisation d’annotations peut en fait réduire la qualité des prédictions de segmentation. Enfin, nous proposons une approche complètement supervisée pour l’analyse de structure, basée sur les réseaux de neurones par graphes. Cette méthode repose principalement sur la classification des liens entre chaque pair d’instants à l’intérieur d’un morceau. Cette dernière permet l’extraction d’information structurelle qui est bénéfique à la prédiction de frontières entre segments musicaux et le type de sections auxquelles ils appartiennent. Nos méthodes sont évaluées sur des jeux de données standards pour l’analyse de structure musicale et comparées à des méthodes récentes. Nos résultats démontrent que prendre en compte explicitement les problèmes de biais liés aux annotations de structure peuvent aider à formuler des systèmes plus robustes, dont la performance est comparable aux travaux précédents, tout en utilisant peu de données annotées d’entraînement.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Méthodes d'Apprentissage Profond pour l'Analyse de Structures Musicales : Adresser le Manque et l'Ambiguïté des Données

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Méthodes d'Apprentissage Profond pour l'Analyse de Structures Musicales : Adresser le Manque et l'Ambiguïté des Données

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses