Thèse en cours

Deep learning pour l'amélioration de signaux vocaux dans un contexte de radio-communications avec des dispositifs de captation sonore non conventionnels

FR  |  
EN
Auteur / Autrice : Julien Hauret
Direction : Eric Bavu
Type : Projet de thèse
Discipline(s) : Sciences pour l'ingénieur spécialié Acoustique
Date : Inscription en doctorat le 01/12/2021
Etablissement(s) : Paris, HESAM
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur
Partenaire(s) de recherche : Laboratoire : LMSSC - Laboratoire de Mécanique des structures et des systèmes couplés
établissement de préparation de la thèse : Conservatoire national des arts et métiers (France)

Résumé

FR  |  
EN

Nous proposons de tirer parti des avancées récentes dans l'utilisation d'architectures spécialisées de Deep Learning pour l'extension de la bande passante afin de compenser ce contenu atténué dans le signal vocal en hautes fréquences. Ce problème, qui vise à générer une forme d'onde audio à une fréquence d'échantillonnage plus élevée et à reconstituer de l'information absente du signal original, est également connu dans la littérature sous le nom de d'audio super-résolution. En effet, l'utilisation de méthodes traditionnelles -- telles que l'amplification par filtrage linéaire du signal audio capturé par le microphone intra-auriculaire à l'aide d'un modèle detransmission acoustique de la bouche au microphone - pourrait s'avérer inefficace pour récupérer le contenu haute fréquence dansce cas. Les premières méthodes proposées dans la littérature étaient basées sur le modèle source-filtre de la production vocale et exploitaient les DNN pour estimer l'enveloppe en hautes fréquences. En raison des exigences d'interopérabilité dans les communications radio, le processus d'extension de la bande passante dans la parole est effectué sans aucune information secondaire. En d'autres termes, l'unité de traitement du côté du décodeur doit prédire le signal en hautes fréquences en exploitant uniquement certaines connaissances statiques du signal « dégradé » par le chemin de propagation. L'essor du Deep Learning pour la super-résolution en traitement d'image et l'amélioration constante des architectures DNN « end-to-end » utilisant des signaux audio bruts (dans le domaine temporel) comme entrées pour les modèles d'apprentissage profonds nous incite à nous tourner vers le développement et la mise en œuvre d'un outil basé sur l'apprentissage profond permettant d'améliorerla qualité de la parole captée par des transducteurs non conventionnels. Nous nous orientons vers le développement d'une architecture de type U-Net utilisant des convolutions 1D-dilatées (à trous). Ces convolutions sont couramment utilisées pouraugmenter le champ réceptif d'un réseau neuronal, sans en augmenter la complexité, et ont été appliquées avec succès au LMSSC pour la localisation de sources sonores, la reconnaissance vocale et le suivi de drones. Leur utilisation dans une architecture de type encodeur-décodeur telle qu'un U-Net avec des entrées audio brutes dans le domaine temporel pourrait améliorer considérablement la qualité de la parole capturée à l'aide de microphones non conventionnels.