Thèse en cours

Machine learning pour l'inpainting acoustique en réalité augmentée : renforcer l'immersion sonore

FR  |  
EN
Auteur / Autrice : Anthony Gallien
Direction : Nicolas Obin
Type : Projet de thèse
Discipline(s) : Sciences de l'ingénieur
Date : Inscription en doctorat le 03/11/2025
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Sciences et technologies de la musique et du son
Equipe de recherche : Espaces acoustiques et cognitifs

Résumé

FR  |  
EN

Ce projet de thèse a pour objectif d'améliorer le réalisme audio dans les environnements de réalité augmentée et mixte (AR/XR), en développant de nouvelles méthodes de synthèse acoustique basées sur l'apprentissage automatique. L'objectif central est de permettre une auralisation cohérente de sources sonores virtuelles, afin de créer un espace acoustique partagé où sons réels et virtuels coexistent de manière naturelle. Cette auralisation repose sur des informations environnementales partielles, telles que le signal vocal capté par les microphones embarqués dans les dispositifs AR. Dans ce contexte, la modélisation acoustique est essentielle, mais reste limitée par la difficulté d'acquérir des réponses impulsionnelles de salle (RIR), indispensables pour simuler de manière réaliste la propagation du son. Pour capturer les dimensions spatiales de cette propagation, on utilise des réponses impulsionnelles spatiales (SRIR), qui fournissent des informations directionnelles, temporelles et spectrales sur le champ acoustique. Les méthodes de simulation utilisées actuellement dans ce type de recherche, principalement basées sur des simulations géométriques, produisent des SRIR synthétiques souvent éloignées des mesures réelles, ce qui nuit à la performance des modèles de machine learning (ML) lorsqu'ils sont appliqués à des environnements réels. Ce projet propose de dépasser ces limitations en développant une méthode avancée de synthèse paramétrique de SRIR, s'appuyant sur des descripteurs acoustiques pertinents (réflexions précoces, densité d'échos, cohérence spatiale, décroissance directionnelle, bruit ambiant, etc.) Cette approche vise à produire de grandes bases de données synthétiques plus proches des conditions réelles, et ainsi à améliorer la robustesse et la généralisabilité des modèles ML. La recherche s'organise autour de quatre axes principaux : (1) Synthèse acoustique avancée : développement de réverbérateurs paramétriques capables de modéliser avec précision les différentes phases de la réverbération (réflexions précoces, phase de transition, réverbération diffuse), en respectant les caractéristiques spectrales, spatiales et temporelles observées dans les SRIRs mesurées. (2) Évaluation de la plausibilité : conception d'un réseau de neurones discriminateur pour évaluer le réalisme perceptif et statistique des SRIRs synthétisées, en les comparant à des enregistrements réels afin d'optimiser le processus de synthèse. (3) Inférence de paramètres acoustiques : mise en place d'un modèle d'inférence capable d'extraire automatiquement des paramètres acoustiques perceptifs à partir d'un simple enregistrement vocal, afin d'informer le réverbérateur et adapter dynamiquement l'auralisation des sources virtuelles. (4) In-painting acoustique aveugle : développement d'un modèle génératif à diffusion dans une architecture encodeur–décodeur, permettant de réintroduire automatiquement et en temps réel une réverbération réaliste sur des signaux secs, en fonction des conditions acoustiques perçues via les capteurs AR. Une attention particulière sera portée à l'évaluation croisée des performances des modèles d'inférence entraînés sur des bases de données simulées par modèle d'acoustique géométrique, mesurées et synthétiques issues de la méthode proposée, afin de valider empiriquement les apports du cadre développé dans des scénarios réalistes. La recherche s'articule autour de trois contributions principales : (1) la conception de techniques de synthèse améliorées pour modéliser perceptivement les premières réflexions, les zones de transition et la réverbération tardive ; (2) le développement d'un réseau neuronal discriminateur pour évaluer la plausibilité perceptuelle et statistique des SRIRs synthétisées ; et (3) la mise en œuvre d'un cadre d'in-painting acoustique aveugle, basé sur des modèles génératifs à diffusion, capable de réintroduire la réverbération dans des signaux audio secs en temps réel. Les modèles seront évalués à l'aide de descripteurs objectifs et de tâches d'inférence, assurant ainsi leur pertinence pour les applications audio immersives en réalité augmentée.