Thèse en cours

Modèles génératifs grammaticaux pour le traitement de notation musicale

FR  |  
EN
Auteur / Autrice : Léo Géré
Direction : Philippe RigauxFlorent Jacquemard
Type : Projet de thèse
Discipline(s) : Sciences pour l'ingénieur spécialité Informatique
Date : Inscription en doctorat le 01/10/2023
Etablissement(s) : Paris, HESAM
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur (Paris)
Partenaire(s) de recherche : Laboratoire : Cedric - Centre d'études et de recherche en informatique et communications
établissement de préparation de la thèse : Conservatoire national des arts et métiers (France)

Résumé

FR  |  
EN

Les modèles génératifs profonds sont appliqués avec succès à de nombreux cas d'apprentissage de données numériques, telles qu'images ou audio. Dans le domaine de la musique, ils peuvent également servir à la génération de représentations symboliques, dans le cadre de problèmes comme la génération automatique de musique ou la transcription. Un défi important pour la génération de données symboliques structurées en général est d'obtenir des résultats bien formés. C'est particulièrement vrai dans le cas de la musique. Il est en effet largement admis que la notation musicale représente, bien au-delà de simple suites de notes, une organisation hiérarchique de l'information mélodique et harmonique, induisant des dépendances non-locales entre les objets musicaux. Une bonne représentation de cette information est essentielle à l'interprétation et à l'analyse de pièces. L'objectif de cette thèse est d'exploiter la nature hiérarchique de la notation musicale, pouvant être représentées par des arbres syntaxiques d'une grammaire hors contexte, et d'utiliser un auto-encodeur variationnel (VAE), qui encode et décode directement ces arbres syntaxiques, pour une grammaire donnée, afin d'obtenir des données syntaxiquement valides. On s'appuiera pour cela sur un modèle arborescent de la notation musicale que nous développons comme représentation intermédiaire pour le traitement de problèmes tels que la transcription musicale, la recherche d'information dans les bases de partitions et l'analyse de partitions. Il conviendra de définir pour le cadre voulu des adaptations appropriées de ce modèle arborescent, des grammaires générant de tels arbres et de transformations d'arbres adéquates. Un corpus d'arbres sera constitué à partir de partitions au format XML et de techniques d'augmentation de données, et appliqué pour l'entraînement de modèles. Nous visons deux applications principales: • la génération de performances musicales de piano (au format symbolique MIDI) à partir de partitions, • le problème inverse qui est la transcription automatique d'enregistrements de piano MIDI en partitions. On utiliserons dans ce cadre de larges bases de partitions piano au format XML et de performances MIDI correspondantes (qu'il s'agisse d'enregistrements de vrais musiciens sur claviers électroniques ou de performances artificielles). Le problème de la génération automatique pourra aussi être approché, par exemple par imitation (d'autres partitions) ou pour produire un résumé, ou encore depuis une description du morceau voulu.