Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
Auteur / Autrice : | Stéphane Huet |
Direction : | Pascale Sébillot |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2007 |
Etablissement(s) : | Rennes 1 |
Résumé
Nos travaux visent à améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) en employant davantage de connaissances linguistiques. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur catégoriel puis réordonnons ces listes en modifiant le score global du système de RAP. Des expériences menées sur le corpus ESTER montrent des améliorations du taux d’erreur de mots et des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML). Nous découpons tout d'abord le document étudié en sections thématiquement homogènes, en proposant un nouveau cadre probabiliste pour intégrer différentes modalités. Nous construisons ensuite des corpus d'adaptation à partir du Web et modifions enfin le ML avec ces corpus spécifiques.