Thèse soutenue

Segmentation et regroupement en chanteurs : application aux enregistrements ethnomusicologiques

FR  |  
EN
Auteur / Autrice : Marwa Thlithi
Direction : Régine André-ObrechtJulien Pinquier
Type : Thèse de doctorat
Discipline(s) : Informatique et télécommunication
Date : Soutenance le 28/06/2016
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)

Résumé

FR  |  
EN

Cette thèse est réalisée dans le cadre du projet ANR CONTINT DIADEMS sur l'indexation de documents ethnomusicologiques sonores. Les données que nous traitons sont fournies par les partenaires ethnomusicologues du projet et elles sont issues des archives du Musée de l'Homme de Paris. Les travaux effectués lors de cette thèse consistent à développer des méthodes permettant de faire une structuration automatique des documents musicaux et ethnomusicologiques basée sur les personnes. Cette thèse aborde le sujet encore inexploré à notre connaissance de la segmentation et du regroupement en chanteurs dans des enregistrements musicaux. Nous proposons un système complet pour ce sujet en s'inspirant des travaux réalisés en segmentation et regroupement en locuteurs. Ce système est conçu pour fonctionner aussi bien sur des enregistrements musicaux de type studio que sur des enregistrements musicaux réalisés dans des conditions terrain. Il permet, tout d'abord, de découper les zones de chant en des segments acoustiquement homogènes, i.e. en groupe de chanteur(s) afin d'avoir une segmentation en tours de chant. Ensuite, une phase de regroupement est effectuée afin de rassembler tous les segments chantés par un même groupe de chanteur(s) dans une seule classe. Notre première contribution est la définition de la notion de " tour de chant " et la proposition de règles d'annotation manuelle d'un enregistrement en des segments de tours de chant. La deuxième est la proposition d'une méthode de paramétrisation de la voix des chanteurs en implémentant une stratégie de sélection de bandes fréquentielles pertinentes basée sur la variance de celles-ci. La troisième est l'implémentation d'un algorithme de segmentation dynamique adapté à un contexte de chant en utilisant le Critère d'Information Bayésien (BIC). La quatrième est la proposition d'une méthode de Décision par Consolidation A Posteriori, nommée DCAP, pour pallier au problème de variabilité du paramètre de pénalité du BIC. En effet, comme le choix a priori d'une valeur optimale de ce paramètre n'est pas possible, nous effectuons un vote majoritaire sur plusieurs sorties de segmentations obtenues avec différentes valeurs de ce paramètre. Des gains d'environ 8% et 15% sont obtenus sur nos deux corpus avec cette méthode par rapport à une valeur standard du paramètre de pénalité. La cinquième est l'adaptation de la méthode DCAP pour la réalisation de l'étape de regroupement en chanteurs.