Thèse soutenue

Rétroaction à hypothèses multiples pour la reconnaissance robuste de la parole à l'aide d'un réseau de microphones d'entrée

FR  |  
EN
Auteur / Autrice : Luca Giulio Brayda
Direction : Christian Wellekens
Type : Thèse de doctorat
Discipline(s) : Automatique, traitement du signal et des images
Date : Soutenance en 2007
Etablissement(s) : Nice
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)

Mots clés

FR

Résumé

FR  |  
EN

Reconnaître la parole dans des environnements réels est d'autant plus difficile que le niveau de bruit augmente et que le locuteur est éloigné du microphone. Des études récentes ont montré que la qualité de la parole en termes de rapport signal/bruit (SNR) peut être augmentée en utilisant des réseaux de microphones. En exploitant la corrélation spatiale entre les signaux multicanaux, on peut orienter le réseau vers le locuteur (formation de faisceau). On peut réaliser cela en exploitant l'interférence destructive entre canaux de bruit à l'aide de la technique retards-et-somme où les retards entre senseurs sont estimés et appliqués au signal de chaque canal. Dans une autre méthode, on peut réaliser un filtre par canal (filtrage-et-somme): ces filtres sont fixes ou adaptatifs sur base du canal voire de la trame selon le critère choisi. Dans ce travail, nous traitons le problème observé que l'accroissement du SNR ne conduit pas automatiquement a celui des taux de reconnaissance et certainement pas dans la même proportion. Seltzer(2004) a proposé d'utiliser un formateur de faisceau filtrage-et-somme adaptatif selon le critère de la vraisemblance maximale (Limabeam) plutôt que selon le SNR. Dans cette méthode, les filtres sont adaptés de façon non-supervisée en utilisant des modèles de parole propre qui sont alignés au mieux sur les traits de parole bruitée. Ensuite le reconnaisseur utilise la somme des signaux filtrés pour générer une transcription finale. Dans cette thèse, nous montrons qu'en considérant en parallèle les N meilleures hypothèses au lieu de la seule meilleure, avant l'optimisation, on peut augmenter le taux de reconnaissance presque jusqu'à celui d'un algorithme supervisé: en fait après les optimisations parallèles, la liste des N meilleures hypothèses est automatiquement réordonnée et les erreurs de reconnaissance sont éliminées. Le cadre du Limabeam aux N-meilleures hypothèses a été testé en présence de bruit additif significatif. En outre, le potentiel du formateur de faisceau retards-et-somme, du Limabeam et du cadre proposé a été étudié dans une salle de réunion très réverbérante où la base de données collectée simule les différentes positions du locuteur et ses mouvements de tête: le but est d'estimer des filtres pour la reconnaissance ou d'exploiter l'information additionelle relative à l'environnement telle que les réponses impulsionnelles des salles.