Méthodes avancées de traitement de la parole et de réduction de bruit pour les terminaux mobiles

par Van Khanh Mai

Thèse de doctorat en Sciences et Technologies de l'Information et de la Communication

Sous la direction de Dominique Pastor et de Abdeldjalil Aissa-El-Bey.

Soutenue le 09-03-2017

à l'Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire , dans le cadre de École doctorale Santé, information-communication et mathématiques, matière (Brest, Finistère) , en partenariat avec Département Signal et Communications (laboratoire) , Lab-STICC_IMTA_CID_TOMS (laboratoire) et de Laboratoire en sciences et techniques de l'information, de la communication et de la connaissance (laboratoire) .


  • Résumé

    Cette thèse traite d'un des problèmes les plus stimulants dans le traitement de la parole concernant la prothèse auditive, où seulement un capteur est disponible avec de faibles coûts de calcul, de faible utilisation d'énergie et l'absence de bases de données. Basée sur les récents résultats dans les deux estimations statistiques paramétriques et non-paramétriques, ainsi que la représentation parcimonieuse. Cette étude propose quelques techniques non seulement pour améliorer la qualité et l'intelligibilité de la parole, mais aussi pour s'attaquer au débruitage du signal audio en général.La thèse est divisée en deux parties ; Dans la première partie, on aborde le problème d'estimation de la densité spectrale de puissance du bruit, particulièrement pour le bruit non-stationnaire. Ce problème est une des parties principales du traitement de la parole du mono-capteur. La méthode proposée prend en compte le modèle parcimonieux de la parole dans le domaine transféré. Lorsque la densité spectrale de puissance du bruit est estimée, une approche sémantique est exploitée pour tenir compte de la présence ou de l'absence de la parole dans la deuxième partie. En combinant l'estimation Bayésienne et la détection Neyman-Pearson, quelques estimateurs paramétriques sont développés et testés dans le domaine Fourier. Pour approfondir la performance et la robustesse de débruitage du signal audio, une approche semi-paramétrique est considérée. La conjointe détection et estimation peut être interprétée par Smoothed Sigmoid-Based Shrinkage (SSBS). Ainsi, la méthode Bloc-SSBS est proposée afin de prendre en compte les atomes voisinages dans le domaine temporel-fréquentiel. De plus, pour améliorer fructueusement la qualité de la parole et du signal audio, un estimateur Bayésien est aussi dérivé et combiné avec la méthode Bloc-SSBS. L'efficacité et la pertinence de la stratégie dans le domaine transformée cosinus pour les débruitages de la parole et de l'audio sont confirmées par les résultats expérimentaux.

  • Titre traduit

    Advanced methods of speech processing and noise reduction for mobile devices


  • Résumé

    This PhD thesis deals with one of the most challenging problem in speech enhancement for assisted listening where only one micro is available with the low computational cost, the low power usage and the lack out of the database. Based on the novel and recent results both in non-parametric and parametric statistical estimation and sparse representation, this thesis work proposes several techniques for not only improving speech quality and intelligibility and but also tackling the denoising problem of the other audio signal. In the first major part, our work addresses the problem of the noise power spectrum estimation, especially for non-stationary noise, that is the key part in the single channel speech enhancement. The proposed approach takes into account the weak-sparseness model of speech in the transformed model. Once the noise power spectrum has been estimated, a semantic road is exploited to take into consideration the presence or absence of speech in the second major part. By applying the joint of the Bayesian estimator and the Neyman-Pearson detection, some parametric estimators were developed and tested in the discrete Fourier transform domain. For further improve performance and robustness in audio denoising, a semi-parametric approach is considered. The joint detection and estimation can be interpreted by Smoothed Sigmoid-Based Shrinkage (SSBS). Thus, Block-SSBS is proposed to take into additionally account the neighborhood bins in the time-frequency domain. Moreover, in order to enhance fruitfully speech and audio, a Bayesian estimator is also derived and combined with Block-SSBS. The effectiveness and relevance of this strategy in the discrete Cosine transform for both speech and audio denoising are confirmed by experimental results.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : IMT Atlantique campus de Brest. Bibliothèque d'études.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.