Thèse soutenue

Reconnaissance vocale dans un contexte de voix sur IP : diagnostic et propositions
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Pedro Mayorga Ortiz
Direction : Jean CaelenLaurent Besacier
Type : Thèse de doctorat
Discipline(s) : Signal, image, parole, télécoms
Date : Soutenance en 2005
Etablissement(s) : Grenoble INPG

Résumé

FR  |  
EN

Ce travail de thèse a pour but de diagnostiquer les nouveaux défis posés à la reconnaissance vocale dans le contexte récent de la voix sur IP, et de proposer quelques solutions permettant d’y améliorer les performances d’un système de reconnaissance automatique. La première contribution de nos travaux a donc consisté à diagnostiquer le plus précisément possible les problèmes dûs à la compression et à la perte de paquets pour deux tâches de reconnaissance différentes : la reconnaissance automatique de la parole et la reconnaissance automatique du locuteur. A l’issu du diagnostic, nous avons constaté une dégradation plus importante due à la compression sur la tâche de vérification du locuteur. En ce qui concerne la reconnaissance automatique de la parole, la dégradation la plus importante a été provoquée par la perte de paquets. La seconde contribution de cette thèse correspond donc à la proposition de techniques de reconstruction afin d’améliorer la robustesse de systèmes soumis à des conditions de pertes de paquets. Nous proposons aussi d’autres alternatives comme l’adaptation d’un système de reconnaissance automatique de la parole en fonction des pertes de paquets. Les techniques de récupération ont été appliquées sur la base de l’émetteur et sur la base du récepteur. Par ailleurs, nos expérimentations confirment également les avantages d’une « architecture distribuée » où des vecteurs acoustiques transitent sur le réseau depuis le client jusqu’au serveur de reconnaissance, par rapport à une architecture plus classique type « serveur pur » où le signal (ou sa version compressée) transite depuis le terminal client sur le réseau jusqu’à un serveur de reconnaissance.