Auteur / Autrice : | Arnaud Dessein |
Direction : | Gérard Assayag |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2012 |
Etablissement(s) : | Paris 6 |
Résumé
Cette thèse propose des méthodes computationnelles nouvelles en géométrie de l'information, avec des applications temps réel au traitement du signal audio. D'une part, nous étudions le problème de la détection séquentielle de ruptures par l'intermédiaire de la géométrie de l'information dualement plate liée aux familles exponentielles. Nous développons un cadre statistique générique et unificateur, reposant sur des tests d'hypothèses multiples avec des rapports de vraisemblance généralisés exacts. Nous appliquons ce cadre à la conception d'un système modulaire pour la segmentation audio temps réel avec des types de signaux et de critères d'homogénéité arbitraires. Le système proposé contrôle le flux d'information audio au fur et à mesure qu'il se déroule dans le temps pour détecter des changements. D'autre part, nous étudions la factorisation en matrices non négatives avec des divergences convexes-concaves sur l'espace des mesures discrètes positives. Nous formulons un cadre d'optimisation générique et unificateur pour la factorisation en matrices non négatives, utilisant des bornes variationnelles par le biais de fonctions auxiliaires. Nous mettons ce cadre à profit en concevant un système temps réel de transcription de musique polyphonique avec un contrôle explicite du compromis fréquentiel pendant l'analyse. Le système développé décompose le signal musical arrivant au cours du temps sur un dictionnaire de modèles spectraux de notes.