Intégration des variantes de prononciation pour les systèmes de transcription et dialogue homme-machine
Auteur / Autrice : | Dominique Massonié |
Direction : | Renato De Mori |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2005 |
Etablissement(s) : | Avignon |
Mots clés
Mots clés contrôlés
Résumé
La qualité des résultats obtenus par les systèmes de Reconnaissance Automatique de la Parole (RAP) encourage leur intégration dans des applications de dialogue Homme-machine. L'accès à des annuaires téléphoniques de très grandes tailles (Assistance-Annuaire), auquel ce travail de thèse est consacré, constitue une application type. Une des difficultés majeures de ce service se situe au niveau de la variabilité de prononciation des noms (et prénoms) de l'annuaire. D'une part, le système doit gérer de très longues listes de noms, qui induisent des problèmes de ressource et de modélisation. D'autre part, l'utilisateur peut ne pas connaître précisément la prononciation ou l'orthographe du nom recherché. La littérature est riche en travaux traitant des problèmes liés à la modélisation des variantes de prononciation. La modélisation lexicale et son intégration aux systèmes de RAP est rappelée en introduction de notre travail de thèse. Une première contribution porte sur l'évaluation des hypothèses (de noms) générées par le moteur de reconnaissance. Le cas des noms propres est un problème particulier que nous abordons de manière originale, à travers l'ajout d'une mesure de confiance calculée sans utiliser de connaissance à priori. Cette mesure permet d'écarter les hypothèses non valides et, surtout, d'optimiser la stratégie de décision du gestionnaire de dialogue. Les choix pour la poursuite du dialogue sont en effet déterminés par les confiances attibuées aux différentes hypothèses. Ce travail a été mené en collaboration avec France Télécom, dans le cadre du projet européen SMADA du programme IST. Une seconde contribution présente une nouvelle méthode d'intégration au plus tôt de l'information lexicale dans le processus de reconnaissance, par anticipation du modèle de langage, particulièrement adaptée aux applications dites temps-réel. Les résultats obtenus ont été validés dans le cadre de la campagne d'évaluation ESTER