Thèse soutenue

Informations segmentales et reconnaissance de parole par modeles de markov caches

FR  |  
EN
Auteur / Autrice : Thierry Moudenc
Direction : Régine André-Obrecht
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1996
Etablissement(s) : Rennes 1

Résumé

FR

Cette these porte sur l'utilisation d'informations segmentales dans un systeme de reconnaissance de parole base sur une architecture markovienne. La problematique sous-jacente est double, tenant en ces deux questions: quelles informations segmentales utiliser ? comment les prendre en compte ? nos travaux sont dedies a la reconnaissance de parole de qualite telephonique, independante du locuteur et de petits vocabulaires. En pre-traitement du signal de parole, pour la determination des vecteurs centisecondes pris en entree des modeles de markov, l'approche choisie a consiste a definir de nouveaux parametres centisecondes a partir d'informations segmentales. Les experiences effectuees a partir d'une utilisation originale des ruptures de stationnarite contenues dans le signal de parole, extraites par la methode de divergence forward-backward, ont permis une reduction des taux d'erreur de 2% a 26% selon le corpus utilise. Plus largement etudiee fut la mise en uvre d'un post-traitement des n meilleures solutions markoviennes base sur une modelisation des informations segmentales extraites des alignements corrects d'une part, et des alignements incorrects d'autre part. Les informations segmentales considerees en post-traitement sont: le nombre de ruptures de stationnarite par segment phonetique, l'erreur commise par un modele de prediction des durees phonetiques, une mesure de la vitesse d'elocution et des mesures de traits phonetiques extraites par reseaux neuro-flous. Concernant ces derniers, l'utilisation d'une technique d'elagage conduit a une perspective interessante pour la selection automatique des meilleures informations segmentales. Un effort particulier a ete mene quant a l'estimation des parametres intervenant dans le post-traitement. Considerant differentes informations segmentales, la contribution de chaque information est estimee par l'algorithme de powell. De plus, nous proposons une estimation au maximum de vraisemblance des parametres d'interpolation des modelisations contextuelles et hors-contextes. Suivant les informations segmentales prises en compte, les experiences menees ont conduit a des reductions de taux d'erreur de 5% a 27% selon le corpus. Enfin, nous proposons de mesurer la capacite d'une information segmentale a distinguer les segments phonetiques issus d'alignements corrects de ceux issus d'alignements incorrects. Cette mesure, le taux d'erreur de classification segmentale a priori, nous a permis de mettre en evidence la correlation entre une information segmentale donnee et chacune des unites phonetiques. Nous proposons ainsi une methode pour l'estimation d'un ensemble de facteurs de ponderation des parametres segmentaux specifiques a chaque unite phonetique consideree