Modélisation de la Musique Symbolique par des Approches de Traitement Automatique du Langage Naturel
| Auteur / Autrice : | Dinh-Viet-Toan Le |
| Direction : | Marc Tommasi, Louis Bigo |
| Type : | Projet de thèse |
| Discipline(s) : | Informatique et applications |
| Date : | Inscription en doctorat le Soutenance le 03/11/2025 |
| Etablissement(s) : | Université de Lille (2022-....) |
| Ecole(s) doctorale(s) : | MADIS Mathématiques, sciences du numérique et de leurs interactions |
| Partenaire(s) de recherche : | Laboratoire : CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille |
| Equipe de recherche : CRIStAL-INRIA | |
| Jury : | Président / Présidente : Patrick Bas |
| Examinateurs / Examinatrices : Marc Tommasi, Chloé Braud, Emmanouil Benetos, Louis Bigo, Marius Bilasco, Xavier Hinaut, Cheng-Zhi Anna Huang | |
| Rapporteurs / Rapporteuses : Xavier Hinaut, Cheng-Zhi Anna Huang |
Résumé
La musique est souvent comparée à un langage. Cette comparaison est notamment due au fait que musique et langage naturel partagent de nombreuses similarités. Parmi celles-ci figurent leurs représentations respectives à travers la notation musicale symbolique - ou partition musicale - et la forme écrite textuelle du langage. Ainsi, le domaine de la recherche d'information musicale MIR a fréquemment emprunté des outils provenant du domaine du Traitement automatique du langage naturel (TALN) afin de les adapter au traitement de données musicales symboliques. Ce phénomène s'est particulièrement intensifié avec l'essor des modèles de type Transformer dans le domaine du TALN. Cette thèse propose tout d'abord une synthèse structurée des adaptations des méthodes de TALN développées dans le champ du MIR pour le traitement de la musique symbolique. Elles sont présentées selon trois axes, chacun portant sur l'utilisation de différentes représentations de la musique symbolique à divers niveaux. La musique symbolique représentée comme des données séquentielles a conduit au développement de plusieurs stratégies de tokenization, que nous proposons d'organiser au sein d'une taxonomie unifiée. Ces représentations sont ensuite traitées par des modèles, tels que les architectures basées sur des mécanismes de récurrence ou d'attention. Celles-ci, initialement conçues pour les données textuelles, ont donné lieu à de multiples adaptations pour le traitement de la musique symbolique. Enfin, ces représentations abstraites sont utilisées pour accomplir des tâches, où émergent à la fois des parallèles et des spécificités distinctives entre MIR et TALN. Ces aspects structurent ensuite les trois contributions techniques de cette thèse. Dans un premier temps, nous étudions l'expressivité des représentations séquentielles de la musique à travers le développement de stratégies de tokenization basées sur les intervalles musicaux, ainsi que l'analyse d'une stratégie de tokenization en sous-mots, le Byte-Pair Encoding, appliqué aux tokens musicaux symboliques. Nous proposons ensuite un cadre pour l'explicabilité de modèles, qui est utilisé pour l'analyse du mécanisme d'attention d'un modèle basé sur Transformeur, entraîné sur une tâche d'analyse d'harmonie fonctionnelle. Enfin, nous développons un modèle adapté des outils du TALN pour une tâche de ré-orchestration, considérée comme un cas de génération automatique de musique multi-instrumentale. Par ces contributions, cette thèse soutient que les méthodes de TALN restent avant tout une boîte à outils dans laquelle le MIR peut s'inspirer. Malgré les analogies entre ces deux domaines, la principale motivation guidant une étude en MIR devrait avant tout être d'ordre musical.