Approche bimodale du traitement automatique de la parole : application à la reconnaissance du message et du locuteur
Auteur / Autrice : | Pierre Jourlin |
Direction : | Marc El-Bèze |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1998 |
Etablissement(s) : | Avignon |
Mots clés
Mots clés contrôlés
Résumé
Ces travaux constituent une etude sur la possibilite d'integrer les informations visuelles constituees par le mouvement et la forme des levres dans les systemes de traitement automatique de la parole. Les differentes approches et methodes relatives a cette problematique sont abordees d'une facon theorique et experimentale. Une description technique des phenomenes d'asynchronie (ou d'independance temporelle) presents dans cette source d'information bimodale est tout d'abord etablie. Differentes manieres de gerer ces phenomenes dans les systemes de reconnaissance de la parole sont etudiees et comparees. Nous definissons alors une nouvelle approche fondee sur un produit d'automates a transitions valuees. En outre, la combinaison de deux modalites, qui peuvent avoir des niveaux de fiabilite totalement differents, pose un certain nombre de problemes relatifs a la ponderation. Nous etudions donc les divers criteres et methodes permettant de trouver une ponderation optimale. Il est egalement fait etat de differentes experimentations effectuees dans le domaine du traitement de la parole acoustico-labiale. Nos propres experimentations dans le domaine de la reconnaissance de la parole bimodale et dans le projet amibe (finance par le cnrs) sont decrites. Les resultats des nouvelles methodes developpees dans ces travaux sont egalement presentes. Enfin, nous abordons egalement le domaine de la verification d'identite acoustico-labiale. Nous presentons les resultats obtenus par le systeme que avons realise en collaboration avec l'idiap dans le cadre du projet europeen m2vts (programme acts). Ces experimentations furent parmi les toutes premieres realisees dans le domaine de la reconnaissance et verification acoustico-labiale du locuteur