Traitement de la phase des signaux audio dans les réseaux de neurones profonds
Auteur / Autrice : | Félix Mathieu |
Direction : | Geoffroy Peeters, Gaël Richard |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, images, automatique et robotique |
Date : | Soutenance le 28/11/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information |
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) | |
Jury : | Président / Présidente : Sylvain Marchand |
Examinateurs / Examinatrices : Sylvain Marchand, Matthieu Kowalski, Laurent Oudre, Alice Cohen-Hadria | |
Rapporteur / Rapporteuse : Matthieu Kowalski, Laurent Oudre |
Mots clés
Résumé
La tâche de séparation de sources sonores d'un enregistrement audio requiert un traitement tout particulier. L'avènement des réseaux de neurones profonds a permis d'améliorer cette tâche au prix d'une complexité computationnelle accrue et d'une opacité des algorithmes. Les interférences induites par ces algorithmes, qu'elles soient parasites ou structurées, peuvent perturber la compréhension du signal, en particulier dans le contexte de la restitution de la voix. Ces problèmes se manifestent particulièrement lors de la transmission de discussions en temps réel, exigeant des mesures de performance pour évaluer les modèles de séparation de sources. Les critères incluent la qualité de reconstruction des pistes individuelles, l'intelligibilité des signaux vocaux, la résilience face aux interférences, et d'autres aspects tels que la réduction des coûts computationnels et l'interprétabilité des traitements. Cette thèse vise à rendre ces modèles plus interprétables tout en atténuant leur coût computationnel, en se concentrant particulièrement sur la modélisation de la phase des signaux. La difficulté actuelle réside dans la modélisation adéquate de cette composante, cruciale pour la compréhension du signal audio. Nous explorerons des stratégies telles que l'utilisation de modèles à valeurs complexes, de représentations invariantes à la phase, et de modèles permettant de s'abstraire de la composante de phase. L'objectif final est de parvenir à des avancées significatives dans la modélisation de la phase des signaux au sein des réseaux de neurones profonds, tout en préservant ou réduisant les coûts computationnels et en améliorant l'interprétabilité des décisions des algorithmes existants.