Thèse soutenue

Mesures de confiance en traitement automatique de la parole et applications

FR
Auteur / Autrice : Julie Mauclair
Direction : Paul Deléglise
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Le Mans
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Université du Mans

Résumé

FR

Ce travail de thèse se place dans le contexte de la campagne d'évaluation ESTER (Evaluation des Systèmes de Transcription enrichie d'Emissions Radiophonique). L'objectif de ce travail de thèse consiste dans un premier temps à proposer des indicateurs ou mesures de confiance permettant de distinguer les zones correctes ou erronées au sein des hypothèses de reconnaissance fournies par un système de transcription automatique de la parole (STAP). Dans un second temps, deux types d'applications utilisant des mesures de confiance sont appréhendées : - la collecte de corpora de transcriptions automatiques fiables alignés sur de la parole enregistrée, par exemple pour augmenter la taille des corpora d'apprentissage disponibles pour l'estimation de modèles acoustiques ; - l'identification nommée automatique du locuteur, qui consiste à extraire des transcriptions automatiques des noms de locuteurs et à les associer aux étiquettes anonymes utilisées par un système d'indexation. Trois mesures de confiance seront proposées, une mesure de confiance dérivée des sorties acoustiques du STAP, une mesure de confiance basée sur le repli du modèle de langage et une mesure de confiance provenant de la probabilité a posteriori d'un mot. A l'aide de métriques d'évaluation de mesures de confiance, ces trois mesures sont comparées et la meilleure combinaison des trois est calculée. Cette combinaison permet d'accroître les performances de chacun des trois mesures dans la détection des zones erronées ou correctes. La première application vise à accroître les performances du STAP utilisé par le LlUM en augmentant de manière non supervisée les données d'apprentissage des modèles acoustiques. Ainsi, les zones de parole ayant un degré de confiance élevé dans un deuxième corpus transcrit automatiquement sont prélevées et ajoutées au corpus d'apprentissage initial transcrit manuellement. Grâce à cet ajout, les performances du SRAP sont significativement améliorées en termes de taux d'erreur sur les mots. Enfin, dans le cadre de l'identification du locuteur d'un document sonore, des scores de confiance sont utilisés pour déterminer le nom du locuteur directement à partir de la transcription. Environ 70% de la durée totale des émissions est correctement indexée en locuteur sur un corpus de test.