Thèse soutenue

Etude de la fusion des donnees heterogenes pour la reconnaissance automatique de la parole audiovisuelle

FR
Auteur / Autrice : Alexandrina Rogozan
Direction : Paul Deléglise
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques
Date : Soutenance en 1999
Etablissement(s) : Paris 11

Résumé

FR

L'utilisation de connaissances supplementaires conjointement au signal de parole ameliore les performances et la robustesse des systemes de reconnaissance de la parole. L'utilisation de donnees sur la forme et le mouvement des levres du locuteur semble etre une voie prometteuse pour la reconnaissance automatique surtout en milieu sonore bruite. Notre recherche concerne particulierement le processus d'integration des informations visuelles avec celles acoustiques. Si cette integration est fort seduisante, la problematique soulevee est loin d'etre simple. Se pose la question du niveau d'integration : est-ce celui de donnees ou de resultats. Il y a les phenomenes de decalage temporel entre les realisations auditive et visuelle de phonemes. Intervient le probleme d'adaptation des contributions des modalites acoustique et visuelle selon leur fiabilite relative. Enfin se pose la question de la pertinence de l'utilisation pour le traitement de la parole visible d'unites de decision specifiques, nommees visemes. Les systemes developpes au moyen des modeles de markov caches respectent successivement une fusion des donnees par identification directe (id), une fusion des resultats apres identification separee (is) et une fusion hybride de type id+is. Chaque modalite est impliquee avec un poids different adapte dynamiquement en fonction du rapport signal sur bruit et du contenu phonetique des phrases. Nous avons teste les performances des systemes sur un corpus monolocuteur de lettres connectees. Les tests realises pour differents niveaux de bruit ont montre une amelioration des performances du fait de la ponderation adaptative, les meilleures performances etant obtenues avec le systeme id+is. Celles-ci peuvent etre davantage ameliorees en utilisant un ensemble des visemes adapte. Nous avons defini cet ensemble au moyen des cartes auto-organisantes de kohonen. Pour renforcer le role de visemes, nous les avons utilises avec un apprentissage discriminant fonde sur reseaux de neurones.