Amélioration de la Prise de Parole dans les Systèmes de Dialogue Vocaux avec Apprentissage par Renforcement
Auteur / Autrice : | Hatim Khouzaimi |
Direction : | Fabrice Lefèvre, Romain Laroche |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/06/2016 |
Etablissement(s) : | Avignon |
Ecole(s) doctorale(s) : | École doctorale Sciences et agrosciences (Avignon) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique d'Avignon |
Entreprise : Orange (Firme) | |
Jury : | Président / Présidente : Olivier Pietquin |
Examinateurs / Examinatrices : Fabrice Lefèvre, Romain Laroche, Olivier Pietquin, David Schlangen, Sophie Rosset, Filip Jurcicek, Bassam Jabaian | |
Rapporteurs / Rapporteuses : David Schlangen, Sophie Rosset |
Mots clés
Résumé
Les systèmes de dialogue incrémentaux sont capables d’entamer le traitement des paroles de l’utilisateur au moment même où il les prononce (sans attendre de signal de fin de phrase tel un long silence par exemple). Ils peuvent ainsi prendre la parole à n’importe quel moment et l’utilisateur peut faire de même (et interrompre le système). De ce fait, ces systèmes permettent d’effectuer une plus large palette de comportements de prise de parole en comparaison avec les systèmes de dialogue traditionnels. Cette thèse s’articule autour de la problématique suivante : est-il possible pour un système de dialogue incrémental d’apprendre une stratégie optimale de prise de parole de façon autonome? Tout d’abord, une analyse des mécanismes sous-jacents à la dynamique de prise de parole dans une conversation homme-homme a permis d’établir une taxonomie de ces phénomènes. Ensuite, une nouvelle architecture permettant de doter les systèmes de dialogues conventionnels de capacités de traitement incrémentales de la parole, à moindre coût, a été proposée. Dans un premier temps, un simulateur de dialogue destiné à répliquer les comportements incrémentaux de l’utilisateur et de la reconnaissance vocale a été développé puis utilisé pour effectuer les premier tests de stratégies de dialogue incrémentales. Ces dernières ont été développées à base de règles issues de l’analyse effectuée lors de l’établissement de la taxonomie des phénomènes de prise de parole. Les résultats de la simulation montrent que le caractère incrémental permet d’obtenir des interactions plus efficaces. La meilleure stratégie à base de règles a été retenue comme référence pour la suite. Dans un second temps, une stratégie basée sur l’apprentissage par renforcement a été implémentée. Elle est capable d’apprendre à optimiser ses décisions de prise de parole de façon totalement autonome étant donnée une fonction de récompense. Une première comparaison, en simulation, a montré que cette stratégie engendre des résultats encore meilleurs par rapport à la stratégie à base de règles. En guise de validation, une expérience avec des utilisateurs réels a été menée (interactions avec une maison intelligente). Une amélioration significative du taux de complétion de tâche a été constatée dans le cas de la stratégie apprise par renforcement et ce, sans dégradation de l’appréciation globale par les utilisateurs de la qualité du dialogue (en réalité, une légère amélioration a été constatée).