Thèse soutenue

Quantification booléenne morphodynamique de la parole : applications au codage vocalique et la recherche d'information rapide

FR  |  
EN
Auteur / Autrice : Salam Fraihat
Direction : Hervé Glotin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2010
Etablissement(s) : Aix-Marseille 3
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Toutes les spécificités de la parole ne sont pas encore exploitées dans les systèmes de traitement automatique. Les paramètrisations habituelles de la parole reposent sur des dizaines de coefficients réels (MFCC). Nous proposons une nouvelle paramétrisation parcimonieuse de la parole, basée sur des oppositions de traits distinctifs plutôt que sur l'augmentation systématique du nombre de dimensions. Afin d'encoder les dépendances Temps-Fréquence (TF) de la parole, nous quantifions isotropiquement les pavés TF, générant peu de coefficients binaires. Les expériences sont réalisées sur un corpus d'émissions radiophoniques multi-locuteurs, de la campagne ESTER. Nos paramètres binaires pour la classification vocalique représentent 1 kb/s, contre 76 kb/s pour les MFCC, tout en donnant des scores comparables. Nous appliquons notre quantification à l'indexation d'émissions radiophoniques par mesure directe de similarité entre le mot recherché et le document audio. Cette indexation morphodynamique est indépendante de la langue, et sans apprentissage. Nos paramètres pour une soixantaine d'instances de mots pour une heure de parole donnent 25% de précision moyenne, ce qui améliore la recherche directe par MFCC, tout en étant beaucoup plus légère, et ouvrant des perspectives sur une recherche d'information booléenne rapide par le contenu.