Le système SHERPA : étiquetage et classification automatique par apprentissage pour le décodage automatique de la parole continue
Auteur / Autrice : | Martine Desi, Franck Poirier |
Direction : | Joseph Mariani |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le Soutenance le 01/01/1985 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | Autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) |
Jury : | Président / Présidente : Christian Fluhr |
Examinateurs / Examinatrices : Joseph Mariani, Christian Fluhr, Guy Mercier, Laurent Miclet, Alexandre Andreewsky, Pierre Escudier | |
Rapporteur / Rapporteuse : Guy Mercier, Laurent Miclet |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse présente le système SHERPA, décodeur phonétique à apprentissage automatique pour la reconnaissance de la parole continue. L’apprentissage comporte : - un étiquetage automatique reposant sur un double lissage énergétique et temporel de la courbe d’énergie (C. E) effectué en fonction de la transformation de la chaine phonétique par des règles d’alternances. Cet étiquetage, par sa complète automatisation et par ses performances (98% d’étiquettes bien placées) offre la possibilité d’utiliser des corpus étendus pour la constitution de dictionnaires de références phonétiques ; - la constitution du dictionnaire de références phonétiques se fait automatiquement par classification incrémentale orientée par la connaissance des correspondances phonétiques. Le décodage phonétique comporte : - une segmentation du signal sur la C. E, avec un taux global d’erreurs inférieur à 9% ; - une présélection pour chaque segment à identifier, d’une partir du dictionnaire en fonction de la position minimale ou maximale du segment sur la C. E et d’indices définis sur les données d’apprentissage ; - une identification qui fournit, pour chaque segment les références phonétiques les plus proches dans la partie présélectionnée du dictionnaire. Sur un treillis de profondeur 4 (au plus) le pourcentage d’identification atteint 93%. Des améliorations au système sont annoncées.