Thèse soutenue

Traitement de la phase des signaux audio dans les réseaux de neurones profonds

FR  |  
EN
Auteur / Autrice : Félix Mathieu
Direction : Geoffroy PeetersGaël Richard
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 28/11/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Jury : Président / Présidente : Sylvain Marchand
Examinateurs / Examinatrices : Sylvain Marchand, Matthieu Kowalski, Laurent Oudre, Alice Cohen-Hadria
Rapporteur / Rapporteuse : Matthieu Kowalski, Laurent Oudre

Résumé

FR  |  
EN

La tâche de séparation de sources sonores d'un enregistrement audio requiert un traitement tout particulier. L'avènement des réseaux de neurones profonds a permis d'améliorer cette tâche au prix d'une complexité computationnelle accrue et d'une opacité des algorithmes. Les interférences induites par ces algorithmes, qu'elles soient parasites ou structurées, peuvent perturber la compréhension du signal, en particulier dans le contexte de la restitution de la voix. Ces problèmes se manifestent particulièrement lors de la transmission de discussions en temps réel, exigeant des mesures de performance pour évaluer les modèles de séparation de sources. Les critères incluent la qualité de reconstruction des pistes individuelles, l'intelligibilité des signaux vocaux, la résilience face aux interférences, et d'autres aspects tels que la réduction des coûts computationnels et l'interprétabilité des traitements. Cette thèse vise à rendre ces modèles plus interprétables tout en atténuant leur coût computationnel, en se concentrant particulièrement sur la modélisation de la phase des signaux. La difficulté actuelle réside dans la modélisation adéquate de cette composante, cruciale pour la compréhension du signal audio. Nous explorerons des stratégies telles que l'utilisation de modèles à valeurs complexes, de représentations invariantes à la phase, et de modèles permettant de s'abstraire de la composante de phase. L'objectif final est de parvenir à des avancées significatives dans la modélisation de la phase des signaux au sein des réseaux de neurones profonds, tout en préservant ou réduisant les coûts computationnels et en améliorant l'interprétabilité des décisions des algorithmes existants.