Modèles de production de parole et reconnaissance à partir d'automates

par Bruno Mathieu

Thèse de doctorat en Informatique

Sous la direction de Jean-Marie Pierrel.

Soutenue en 1999

à Nancy1 , en partenariat avec Université Henri Poincaré Nancy 1. Faculté des sciences et techniques (autre partenaire) .


  • Résumé

    L'objet de cette thèse est l'étude de la reconnaissance automatique de parole. Ce document débute avec la description des traitements acoustiques les plus répandus en vue de reconnaître la parole. Nous décrivons ensuite les diverses architectures qui ont été utilisées : comparaison dynamique de formes acoustiques, systèmes experts, réseaux neuro-mimétiques et modèles de Markov. Puis ce document se divise en deux parties. Dans une première expérience, nous nous sommes intéressés à la reconnaissance de mots. Pour cela, nous utilisons des automates qui modélisent le vocabulaire. Celui-ci comporte les dix chiffres anglo-saxons, dont deux prononciations différentes pour le zéro. Le corpus de parole TiDigits a été utilisé par d'autres laboratoires ce qui nous permet de comparer nos résultats. La première étape est consacrée à la reconnaissance de mots isolés. Puis nous présentons une méthode de segmentation de séquences de chiffres. La fin de ce chapitre est consacrée à la reconnaissance de mots enchaînés et à une discussion sur les mérites et les faiblesses de notre approche. La deuxième partie traite de l'utilisation d'un modèle de production qui pourrait être utilisé pour le reconnaissance de la parole. Nous commençons par présenter les équations acoustiques régissant l'écoulement de l'air dans le conduit vocal et divers modèles articulatoires. Ensuite nous justifions le choix du modèle articulatoire de Maeda. Nous décrivons comment nous avons adapté le modèle à un locuteur masculin. Puis nous présentons la méthode variationnelle utilisée pour retrouver les trajectoires des articulateurs en fonction de la parole prononcée. Une dernière section présente les logiciels réalisés. En conclusion, nous résumons les résultats obtenus et donnons quelques perspectives en vue de reconnaître la parole continue quel que soit le locuteur.


  • Résumé

    The framework of this thesis is speaker-independent automatic speech recognition. This document begins with a short survey of speech signal processing applied to speech recognition. Then, we describe several common architectures: dynamic time warping of acoustic shapes, artificial intelligence, neural networks and hidden Markov models. This document is made of two main parts. The first part is devoted to the recognition of words. We are using finite state automata for modeling the eleven American spoken digits. As the speech database TiDigits has been used by other teams we can compare our results against thoose obtained with other approaches. The first step is concerned with isolated word recognition. Then, we describe how sentences of the database have been segmented. Last sections of this part describe continuous speech recognition of word sequences, as well as a discussion about strong and weak points of our approach. The second part treats of the use of production models for speech recognition. We begin with a description of the acoustic equations which drive the air flow inside the vocal tract and we present several articulatory models. Then, we justify the choice of Maeda's model. We describe the adaptation of this model to a male speaker. Next, we describe the variational method used for recovering articulatory trajectories from the speech. Finally, the software we built, is described. In the conclusion, we give the results obtained and we exhibit sorne perspectives for future work towards a better speaker indepedent continuous speech recognition system.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-102 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliographie p. 91-102

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation - BU Sciences et Techniques.
  • Disponible pour le PEB
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : MATHIEU m

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : MF-1999-MAT
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.