Thèse soutenue

Vers le temps réel en transcription automatique de la parole grand vocabulaire

FR  |  
EN
Auteur / Autrice : Leila Zouari-Ben Letaïfa
Direction : Gérard Chollet
Type : Thèse de doctorat
Discipline(s) : Signal et images
Date : Soutenance en 2007
Etablissement(s) : Paris, ENST

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse porte sur la réduction du temps de calcul des systèmes de transcription en vue de permettre leur utilisation dans des contextes réels. Une telle optimisation est particulièrement intéressante lors du calcul des probabilités d'émission des états, tâche occupant souvent plus de la moitié du temps de traitement. Vu que ce calcul dépend du nombre de gaussiennes et que seules quelques gaussiennes ont un réel impact sur la reconnaissance, on s'est intéressé à la sélection de ces gaussiennes. Les méthodes existantes sont basées sur la classification. Pour améliorer cette classification, nous avons proposé un partitionnement hiérarchique par état basé sur la similarité entre les distributions gaussiennes. Chaque niveau de l'arbre de classification obtenu donne lieu à une sélection de gaussiennes. Les distributions choisies sont à l'intersection de toutes les sélections. Les mélanges de distributions correspondent à des contextes d'apparition différents. Malheureusement, les méthodes de sélection existantes ne prennent pas en compte ces différents contextes, puisque lorsque le nombre de gaussiennes par état est faible, toutes les distributions sont mélangées avant d'être regroupées. Ainsi, nous avons développé une méthode de sélection contextuelle des gaussiennes. Les méthodes de sous-quantification vectorielle sont apparues comme une alternative aux approches basées sur la sélection des gaussiennes. En regroupant toutes les distributions, elles mélangent certains contextes. Ainsi, nous avons introduit une sousquantification vectorielle contextuelle. Les résultats obtenus sont intéressants et dépassent certaines méthodes existantes.