Rehaussement de la parole par des techniques de séparation de sources bi-capteurs
Auteur / Autrice : | Zaher El- Chami |
Direction : | Dinh Tuan Pham, Christine Servière, Alexandre Guérin |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, image, parole, télécoms |
Date : | Soutenance en 2010 |
Etablissement(s) : | Grenoble INPG |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images parole signal automatique |
Entreprise : France Telecom Orange labs (2007-2012) | |
Jury : | Président / Présidente : Christian Jutten |
Rapporteurs / Rapporteuses : Karim Abed-Meraim, Yannick Deville |
Mots clés
Mots clés contrôlés
Résumé
La séparation aveugle de sources est étudiée dans cette thèse comme une technique pour débruiter de parole. Une nouvelle méthode de séparation basée sur un modèle de probabilité est proposée pour le cas sous déterminé. Contrairement à ce qu'il était proposé jusqu'à présent, nous montrons que le rapport entre les représentations temps-fréquence (TF) de deux observations, revenant à une seule source, n'est pas constant, mais varie aléatoirement suivant une distribution de probabilité que nous allons estimer. Sous l'hypothèse d'avoir des supports TF disjoint entre les sources, le modèle de la distribution théorique du couple (log ILD/IPD), représentant respectivement le logarithme de la différence d'énergie et la différence de phase entre les deux observations du mélange, est calculé. Les paramètres de ce modèle sont estimés par la technique Espérance-Maximisation afin de construire les masques TF de séparation. De plus, une nouvelle méthode pour compter et localiser le nombre des sources est présentée. Les performances de la méthode de séparation et du comptage et localisation sont évaluées sur des bases de données réelles. Des bons résultats sont obtenus même dans des situations sévères