Thèse soutenue

Segmentation parole/musique pour la transcription automatique de parole continue

FR  |  
EN
Auteur / Autrice : Emmanuel Didiot
Direction : Jean-Paul HatonIrina Illina
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/11/2007
Etablissement(s) : Nancy 1
Ecole(s) doctorale(s) : IAEM Lorraine
Partenaire(s) de recherche : Laboratoire : LORIA
Jury : Examinateurs / Examinatrices : Paul Deléglise, Christian J. Wellekens, Jean-Paul Haton, Jean-François Bonastre, Irina Illina, Dominique Fohr, Laurent Besacier, Jean-Pierre Thomesse
Rapporteurs / Rapporteuses : Paul Deléglise, Christian J. Wellekens

Résumé

FR  |  
EN

Dans cette thèse, nous étudions la segmentation d'un flux audio en parole, musique et parole sur musique (P/M). Cette étape est fondamentale pour toute application basée sur la transcription automatique de flux radiophoniques et plus généralement multimédias. L'application visée ici est un système de détection de mots clés dans les émissions radiophoniques. Les performances de ce système dépendront de la bonne segmentation du signal fournie par le système de discrimination parole/musique. En effet, une mauvaise classification du signal peut provoquer des omissions de mots clés ou des fausses alarmes. Afin d'améliorer la discrimination parole/musique, nous proposons une nouvelle méthode de paramétrisation du signal. Nous utilisons la décomposition en ondelettes qui permet une analyse des signaux non stationnaires dont la musique est un exemple. Nous calculons différentes énergies sur les coefficients d'ondelettes pour construire nos vecteurs de paramètres. Le signal est alors segmenté en quatre classes : parole (P), non-parole (NP), musique (M) et non-musique (NM) grâce à deux systèmes disjoints de classification HMM classe/non-classe. Cette architecture a été choisie car elle permet de trouver les meilleurs paramètres indépendamment pour chaque tâche P/NP et M/NM. Une fusion des sorties des classifieurs est alors effectuée pour obtenir la décision finale : parole, musique ou parole sur musique. Les résultats obtenus sur un corpus réel d'émissions de radio montrent que notre paramétrisation en ondelettes apporte une nette amélioration des performances en discrimination M/NM et P/M par rapport à la paramétrisation de référence fondée sur les coefficients cepstraux.