Thèse soutenue

Introduction de la connaissance musicale et de l'analyse qualitative dans les tâches d'extraction et de prédiction d'accords avec apprentissage automatique

FR  |  
EN
Auteur / Autrice : Tristan Carsault
Direction : Gérard Assayag
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/12/2020
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Sciences et technologies de la musique et du son (Paris ; 1983-....)
Jury : Président / Présidente : Nicolas Bredèche
Examinateurs / Examinatrices : Pierre Couprie, Dorien Herremans, Jérôme Nika, Philippe Esling
Rapporteurs / Rapporteuses : Brian McFee, Florence Levé

Résumé

FR  |  
EN

Cette thèse étudie l’impact de l’introduction de propriétés musicales dans les modèles d’apprentissage machine pour l’extraction et l’inférence de structures musicales. De plus, elle traite de l’utilisation des connaissances musicales pour effectuer des évaluations qualitatives des résultats. Dans ce travail, nous nous concentrons sur les accords musicaux puisque ce sont des structures musicales fréquemment utilisées pour décrire les progressions harmoniques dans la musique occidentale. Ainsi, parmi la variété des tâches rencontrées dans le domaine de la recherche d’informations musicales (MIR), les deux principales tâches que nous abordons sont l’extraction automatique d’accords (ACE) et l’inférence de séquences de label d’accords. Dans le cas des accords musicaux, il existe de fortes relations inhérentes d’un point de vue hiérarchiques et fonctionnelles. En effet, même si deux accords n’appartiennent pas à la même classe, ils peuvent partager la même fonction harmonique au sein d’une progression d’accords. En outre, de nombreuses applications créatives bénéficieraient d’un niveau plus élevé de compréhension harmonique plutôt que d’une précision accrue dans la tâche de classification. Nous avons donc développé un analyseur spécifiquement adapté qui se concentre sur les relations fonctionnelles entre les accords pour distinguer les erreurs fortes et faibles. Nous définissons les erreurs faibles comme une mauvaise classification qui conserve la pertinence en termes de fonction harmonique. Cela reflète le fait que, contrairement aux tâches de transcription strict, l’extraction de caractéristiques musicales de haut niveau est une tâche plutôt subjective. Un de nos cas d’application est le développement d’un logiciel qui interagit avec un musicien en temps réel en déduisant les progressions d’accords attendues. Pour atteindre cet objectif, nous avons divisé le projet en deux tâches principales : un module d’écoute et un module de génération symbolique. Le module d’écoute extrait la structure musicale jouée par le musicien, tandis que le module de génération prédit les séquences musicales en fonction des accords extraits. Dans la première partie de cette thèse, nous visons le développement d’un système ACE qui pourrait émuler le processus de découverte de la structure musicale, tel qu’il est exécuté par les musiciens dans des contextes d’improvisation. La plupart des systèmes ACE sont construits sur l’idée d’extraire des caractéristiques des signaux audio bruts et, ensuite, d’utiliser ces caractéristiques pour construire un classificateur d’accords. Nous distinguons deux grandes familles d’approches, les modèles basés sur les règles musicales ou les modèles statistiques. Dans ce travail, nous identifions les inconvénients de l’utilisation des modèles statistiques pour les tâches ACE. Ensuite, nous proposons d’introduire les connaissances musicales préalables afin de rendre compte des relations inhérentes entre les accords directement à l’intérieur de la fonction de coût des méthodes d’apprentissage machine. Dans la deuxième partie de cette thèse, nous nous concentrons sur l’apprentissage de relations de plus haut niveau à l’intérieur de séquences d’accords extraites, en vue de développer des modèles capables de générer des suites potentielles de séquences d’accords.