Une approche hiérarchique de la segmentation du signal de parole
Auteur / Autrice : | Jean-Luc Husson |
Direction : | Yves Laprie |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1998 |
Etablissement(s) : | Nancy 1 |
Partenaire(s) de recherche : | Autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques |
Mots clés
Résumé
Dans cette thèse, nous reconsidérons le décodage acoustico-phonétique de parole sous un angle analytique. Pour ce faire, nous proposons un système de segmentation automatique du signal de parole continue et dans des conditions d'indépendance vis-à-vis du locuteur. Notre objectif consiste à transformer l'onde acoustique continue en une séquence discrète de segments temporels correspondant à des réalisations acoustiques de phonèmes. Le premier chapitre vise à présenter au lecteur non expert du domaine la problématique de la communication orale homme-machine et démontrer l'importance du niveau de traitement perceptif. Le second chapitre est dédié à l'étude de l'étape de segmentation et à la présentation de plusieurs systèmes de segmentation représentatifs de la diversité des approches possibles. Le chapitre III est dédié à la présentation de nos travaux concernant l'extraction coopérative de la fréquence fondamentale. Les bons résultats obtenus pour de la parole propre et bruitée nous permettent d'utiliser ce système pour présegmenter le signal en régions voisées et non-voisées. Le chapitre IV est consacré à la présentation de notre système hiérarchique. Nous proposons un algorithme permettant de retrouver dans les réseaux de segmentation multiniveaux (dendrogrammes) un ensemble réduit des solutions de segmentation phonétique les plus vraisemblables. Le coefficient de vraisemblance attribue à une segmentation candidate est calculée en fonction de critères de durée et d'homogénéité spectrale des segments acoustiques qui la composent. Nous montrons qu'une contrainte globale de durée (estimation sous la forme d'un intervalle de confiance du nombre de segments attendus compte tenu de la durée du signal) permet de réduire efficacement l'espace de recherche. Le chapitre V aborde le problème de l'évaluation des systèmes de segmentation en général et présente les résultats qualitatifs et quantitatifs obtenus par notre système sur des corpus du français.