Thèse soutenue

Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse

FR  |  
EN
Auteur / Autrice : Thomas Hueber
Direction : Bruce DenbyGérard Chollet
Type : Thèse de doctorat
Discipline(s) : Électronique
Date : Soutenance en 2009
Etablissement(s) : Paris 6 en cotutelle avec Etablissement ParisTech

Résumé

FR

L’objectif poursuivi dans cette thèse est la réalisation d’une « interface de communication en parole silencieuse » : un système capable d’interpréter une parole normalement articulée mais non vocalisée. Un tel dispositif pourrait être utilisé par une personne laryngectomisée, pour communiquer dans un milieu où le silence est requis (transports en commun, opération militaire), ou dans un environnement très bruité. Le dispositif proposé est basé sur la saisie de l’activité articulatoire par imagerie ultrasonore et vidéo. Le problème traité est celui de la synthèse d’un signal acoustique, uniquement à partir de données visuelles. Cette « conversion visuo-acoustique » s’effectue par apprentissage artificiel. Un système de synchronisation des flux ultrasonore, vidéo et audio a été développé. Deux bases de données contenant une heure de « parole continue » en langue anglaise ont été construites. Deux techniques ont été mises en œuvre pour la caractérisation des images, l’une basée sur la transformée en cosinus discrète, l’autre sur l’analyse en composantes principales. Dans une première approche, la fonction de conversion visuo-acoustique est modélisée par un réseau de neurones et par des mélanges de gaussiennes. La seconde approche proposée s’appuie sur une modélisation par « modèles de Markov cachés » (MMC), et met en œuvre une étape intermédiaire de décodage phonétique afin d’introduire dans la conversion des connaissances linguistiques a priori. Enfin, deux méthodes basées respectivement sur une approche par sélection d’unités et sur la « synthèse par MMC » (HTS), s’appuyant sur une modélisation du type « Harmonique plus Bruit », sont proposées pour la synthèse du signal