Thèse soutenue

FR
Auteur / Autrice : Antony Schutz
Direction : Dirk T. M. Slock
Type : Thèse de doctorat
Discipline(s) : Signal et images
Date : Soutenance en 2010
Etablissement(s) : Paris, Télécom ParisTech

Mots clés

FR

Résumé

FR  |  
EN

Pour les êtres humains, le son n'a d'importance que pour son contenu. La voie est un langage parlé, la musique une intention artistique. Le processus physiologique est hautement développé, tout comme notre capacité à comprendre les processus sous-jacent. C'est un défi de faire exécuter la même tâche à un ordinateur: ses capacités n'égalent pas celles des humains lorsqu'il s'agit de comprendre le contenu d'un son composé de paroles et/ou d'instruments de musique. Dans la première partie nos recherches portent sur la séparation aveugle de source en n'utilisant qu'un seul microphone. Le problème de séparation de source audio apparaît dès que plusieurs sources audio sont présentes au même moment, mélangées puis acquises par des capteurs, un unique microphone dans notre cas. Dans ce genre de situation il est naturel pour un être humain de séparer et de reconnaître plusieurs locuteurs. Ce problème, connu sous le nom de Cocktail Problem à reçu beaucoup d'attention mais est toujours ouvert. Comme nous ne travaillons qu'avec une seule observation nous ne pouvons pas utiliser d'indice lié à la spatialisation et nous sommes dans l'obligation de modéliser les sources. La deuxième partie traite du traitement musical et est composée de plusieurs annexes. La tâche analysée est liée au traitement automatique de la musique, qui a pour but de comprendre un contenu musical afin d'en générer la partition. Cependant la musique ne peut pas être réduite à une succession de notes et un bon transcripteur devrait être capable de détecter les effets d'interprétations et la qualité de jeu du musicien.