Détermination d'un degré de confiance en reconnaissance automatique de la parole par estimation de rapports de vraisemblance au niveau des trames acoustiques

par Nicolas Moreau

Thèse de doctorat en Traitement du signal et télécommunications

Sous la direction de Samir Saoudi.

Soutenue en 2001

à Rennes 1 .


  • Résumé

    Les systèmes de reconnaissance vocale accessibles à une large communauté d'utilisateurs (e. G. Services vocaux téléphoniques) sont inévitablement confrontés à de nombreux signaux étrangers au domaine de l'application : mots hors vocabulaire, hésitations, bruits divers, etc. Ces signaux peuvent occasionner des erreurs de fausses alarmes qui s'ajoutent aux erreurs de substitution. Si ces erreurs sont trop nombreuses elles risquent de rebuter l'utilisateur. Pour qu'une application soit viable, il est indispensable de disposer d'une mesure de confiance traduisant le degré de fiabilité des mots reconnus. Ce travail propose de définir une mesure de confiance à partir de rapports de vraisemblance estimés au niveau des trames acoustiques. L'idée est de définir une méthode utilisable en reconnaissance flexible, qui permette d'estimer le degré de confiance de n'importe quelle portion du signal. L'originalité de cette approche réside dans la définition de modèles d'évènements corrects et incorrects pour chaque état des HMMS. Il s'agit de distributions estimées a partir des informations centisecondes (vecteurs de trames) du signal. Dans cette étude, les mesures de confiance sont appliquées au rejet des entrées incorrectes d'un annuaire téléphonique vocal, indépendant du locuteur, et base sur un système de reconnaissance flexible. Plusieurs stratégies de rejet sont proposées : vérification des hypothèses d'un décodeur muni ou non d'un modèle de rejet, avec ou sans adaptation des HMMS aux données d'exploitation. Dans tous les cas, on obtient des performances de rejet supérieures à celles d'un système de référence (utilisation d'un modèle de rejet, sans vérification des résultats) sur les entrées hors vocabulaire et les bruits.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 234 p.
  • Annexes : 115 ref.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes 1. Service commun de la documentation. BU Beaulieu.
  • Disponible pour le PEB
  • Cote : TA RENNES 2001/30

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Accessible pour le PEB
  • Cote : MF-2001-MOR
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.