Thèse soutenue

Fusion de capteurs avec contrôle du contexte : application a la reconnaissance de parole dans le bruit

FR  |  
EN
Auteur / Autrice : Pascal Teissier
Direction : Jean-Luc SchwartzAnne Guérin-Dugué
Type : Thèse de doctorat
Discipline(s) : Signal, image, parole
Date : Soutenance en 1999
Etablissement(s) : Grenoble INPG

Résumé

FR

Cette these est consacree a la fusion de capteurs incluant un controle par des informations contextuelles. L'application visee est la reconnaissance audiovisuelle de parole dans le bruit. Tout d'abord, nous passons en revue la litterature sur les systemes de reconnaissance automatique de la parole audiovisuelle existants sans oublier les domaines plus generaux comme la fusion de capteur et la perception de la parole. De cette revue de l'etat de l'art qui laisse apparaitre une considerable diversite d'approches, nous mettons en place une strategie et une methodologie permettant d'etudier et de comparer convenablement, pour une tache de reconnaissance simple (voyelles statiques), les principaux elements qui conditionnent l'efficacite des systemes de reconnaissance audiovisuelle : mise en forme des donnees d'entree, choix de l'architecture de fusion et introduction de mecanismes de controle. Une comparaison de quatre architectures, avec une proposition originale de processus de controle par une information externe (contexte) pour chacune d'entre elles, a permis de faire emerger deux modeles d'integration qui donnent des performances similaires. L'introduction de differents pretraitements de donnees, trop souvent negliges dans la litterature, montre l'importance de la mise en forme des donnees dans un processus de fusion ; la proposition d'un algorithme d'apprentissage supervise permettant le depliage des donnees d'entree ameliore les performances de facon tres significative. Une etude sur l'estimation d'information contextuelle, indispensable pour piloter le systeme de fusion selon les conditions externes (bruit), donne une preference pour l'evaluation de cette variable sur les donnees pretraitees avant tout processus de classification. Enfin, dans une seconde serie d'experimentation, nous continuons la comparaison d'architectures pour une tache de reconnaissance plus complexe (stimuli dynamiques) pour les deux meilleurs modeles d'integration.