Thèse soutenue

Méthodologie de segmentation et d'étiquetage automatisés de bases de données acoustiques

FR  |  
EN
Auteur / Autrice : Hai Dong Wang
Direction : Denis Tuffelli
Type : Thèse de doctorat
Discipline(s) : Systèmes électroniques
Date : Soutenance en 1991
Etablissement(s) : Grenoble INPG
Partenaire(s) de recherche : Laboratoire : Institut de la communication parlée (Grenoble1983-2007)

Résumé

FR

Cette these est consacree a la segmentation et l'etiquetage de bases de donnees du signal de parole, bases qui sont essentielles pour la recherche en parole. Dans ce travail nous avons adopte une nouvelle strategie pour rassembler les avantages des deux demarches existantes (manuelle et automatique) afin de faire compenser les inconvenients de l'une par l'autre. Cette strategie nous a conduit au developpement de nos deux systemes: tels et atds. Dans le systeme tels, qui est manuel, nous avons adopte une approche originale d'expansion d'echelle du temps du signal de parole pour diminuer au mieux le temps de manipulation, celui-ci etant un des problemes fondamentaux de la demarche manuelle. Les ambiguites de realisation acoustique de la parole sont aussi faciles a examiner grace a un mecanisme de loupe acoustique sonore. Les algorithmes de modification d'echelle du temps du signal de parole que nous avons developpes permettent une mise en uvre efficace d'expansion du temps avec un grand facteur (10) , ce qui est un point important, dans ce systeme. Le systeme tels est original, il presente une ergonomie performante et permet une bonne precision d'etiquetage. Dans le systeme atds, qui est automatique, nous avons developpe egalement une nouvelle approche. Elle est basee sur une vision segmentale chevauchante du signal de parole. On decrit la realisation phonetique avec une suite de fonctions d'emergence associees aux centres de realisation des phonemes. Ces fonctions d'emergence sont determinees grace a un algorithme adaptatif performant de detection de ces centres de realisation et un modele phonetique: le modele de decomposition temporelle. Une solution analytique de celui-ci nous a permis aussi de modeliser l'influence du contexte immediat dans nos algorithmes d'alignement dynamique td-dtw. Des parametres simples et robustes (energie, duree,. . . ) permettent a cet alignement dynamique d'etre relativement independant du locuteur. Cette approche est originale et les algorithmes sont performants et robustes. Le systeme atds en consequence produit des resultats en coherence avec une interpretation phonetique et a des performances tres satisfaisantes. Finalement nous proposons une strategie generale de segmentation et d'etiquetage qui integre les deux systemes precedents