Analyse de scène sonore multi-capteurs : un front-end temps-réel pour la manipulation de scène
Auteur / Autrice : | Mathieu Baque |
Direction : | Manuel Melon, Alexandre Guérin |
Type : | Thèse de doctorat |
Discipline(s) : | Acoustique |
Date : | Soutenance le 09/06/2017 |
Etablissement(s) : | Le Mans |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur, Géosciences, Architecture (Nantes) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'acoustique de l'Université du Mans - Laboratoire d'acoustique de l'université du Mans / LAUM |
Jury : | Examinateurs / Examinatrices : Alexandre Guérin |
Mots clés
Résumé
La thèse s’inscrit dans un contexte d’essor de l’audio spatialisé (5.1, Dolby Atmos...). Parmi les formats audio 3D existants, l’ambisonie permet une représentation spatiale homogène du champ sonore et se prête naturellement à des manipulations : rotations, distorsion du champ sonore. L’objectif de cette thèse est de fournir un outil d’analyse et de manipulation de contenus audio (essentiellement vocaux) au format ambisonique. Un fonctionnement temps-réel et en conditions acoustiques réelles sont les principales contraintes à respecter. L’algorithme mis au point est basé sur une analyse en composantes indépendantes (ACI) appliquée trame à trame qui permet de décomposer le champ acoustique en un ensemble de contributions, correspondant à des sources (champ direct) ou à de la réverbération. Une étape de classification bayésienne, appliquée aux composantes extraites, permet alors l’identification et le dénombrement des sources sonores contenues dans le mélange. Les sources identifiées sont localisées grâce à la matrice de mélange obtenue par ACI, pour fournir une cartographie de la scène sonore. Une étude exhaustive des performances est menée sur des contenus réels en fonction de plusieurs paramètres : nombre de sources, environnement acoustique, longueur des trames, ou ordre ambisonique utilisé. Des résultats fiables en terme de localisation et de comptage de sources ont été obtenus pour des trames de quelques centaines de ms. L’algorithme, exploité comme prétraitement dans un prototype d’assistant vocal domestique, permet d’améliorer significativement les performances de reconnaissance, notamment en prise de son lointaine et en présence de sources interférentes.