Adaptation des modèles de langage dans le cadre du dialogue homme-machine
Auteur / Autrice : | David Janiszek |
Direction : | Renato De Mori |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2005 |
Etablissement(s) : | Avignon |
Mots clés
Mots clés contrôlés
Résumé
Actuellement, la plupart des systèmes de reconnaissance automatique de la parole (SRAP) sont basés sur des modèles de langage statistiques (MLS). Ces modèles sont estimés à partir d'ensembles d'observations. La mise en oeuvre d'un SRAP nécessite un corpus en adéquation avec le domaine de l'application. Or, à cause des difficultés posées par leur collecte, les corpora disponibles peuvent s'avérer insuffisants pour estimer correctement des MLS. Pour surmonter cela, on souhaite utiliser d'autres données et les adapter au contexte applicatif du SRAP afin d'améliorer les performances du système de dialogue correspondant. Dans ce cadre, nous avons défini et mis en oeuvre un nouveau paradigme : la représentation matricielle des données linguistiques. Cette approche, au centre de nos travaux; permet de nouveaux traitements des données linguistiques grâce à l'utilisation de l'algèbre linéaire. Par exemple, on peut définir une similarité sémantico-fonctionnelle entre plusieurs mots. En nous basant sur la représentation matricielle, nous avons étudié et mis au point plusieurs techniques d'adaptation selon plusieurs axes de recherche : Le filtrage des données : basé sur la technique des blocs minimaux. La transformation linéaire : par le calcul d’un opérateur algébrique transformant les données linguistiques. L'augmentation de données : technique réestimant les occurrences d'un mot observé en fonction de sa similarité avec d'autres mots. La combinaison sélective d'historiques : technique généralisant l'interpolation linéaire de différents modèles de langage. Combinaison de techniques : nous avons cherché les meilleures combinaisons. Les résultats expérimentaux obtenus nous donnent des améliorations relatives du taux d'erreur mot sous certaines conditions. En particulier, nos expériences montrent que l'augmentation de données et la combinaison sélective d'historiques, lorsqu'elles sont associées, donnent des résultats intéressants