Thèse soutenue

Imitation hiérarchique et apprentissage par renforcement pour les systèmes de dialogue orientés tâches multi-domaines

FR  |  
EN
Auteur / Autrice : Thibault Cordier
Direction : Fabrice LefèvreLina Rojas Barahona
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/10/2023
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
Jury : Président / Présidente : Frédéric Béchet
Examinateurs / Examinatrices : Tanguy Urvoy, Matthieu Geist, Jean-François Bonastre
Rapporteur / Rapporteuse : Olivier Pietquin, Stefan Ultes

Résumé

FR  |  
EN

Dans cette thèse de doctorat, nous étudions les systèmes de dialogue orientés tâches qui sont des systèmes conçus pour aider les utilisateurs à accomplir des tâches spécifiques, telles que la réservation d’un vol ou d’un restaurant. Ils s’appuient généralement sur un paradigme d’apprentissage par renforcement pour modéliser le dialogue permettant au système de raisonner sur les objectifs et les préférences de l’utilisateur, et de sélectionner les actions qui conduiront au résultat souhaité. Malgré les avancées récentes, les systèmes de dialogue orientés tâches présentent encore plusieurs limites. L’une d’entre elles est la tendance de ces systèmes à échouer lorsque les utilisateurs s’écartent du comportement attendu ou introduisent de nouveaux objectifs au milieu de la conversation. Un autre problème est la difficulté de concevoir des systèmes robustes capables de gérer un large éventail de tâches. Nous nous concentrons spécifiquement sur l’apprentissage à partir d’un nombre limité d’interactions, ce qui est crucial en raison de la rareté et du coût des interactions humaines. Les algorithmes standards d’apprentissage par renforcement nécessitent généralement une grande quantité de données d’interaction pour obtenir de bonnes performances. Pour relever ce défi, nous visons à rendre les systèmes de dialogue plus efficaces en termes d’échantillonnage dans leur entraînement. Nous nous sommes inspirés principalement des idées d’imitation et de hiérarchie. Notre première contribution explore l’intégration de l’imitation dans l’apprentissage par renforcement. Nous nous appuyons sur la littérature existante qui souligne l’importance de l’imitation dans l’apprentissage, car les humains apprennent souvent en imitant des experts qui possèdent des connaissances précieuses. Nous étudions comment utiliser efficacement les démonstrations d’experts pour extrapoler les connaissances avec un effort de généralisation minimal. Alors que l’imitation s’avère efficace pour obtenir des performances et tirer parti de démonstrations réussies, nous observons des limites lorsqu’il s’agit de traiter une complexité plus élevée, en particulier dans le cadre d’un dialogue orienté tâches multi-domaines. Notre deuxième contribution porte sur l’exploitation de la hiérarchie et de la structure inhérentes aux dialogues. En nous inspirant de l’avantage que présente la décomposition de problèmes complexes en problèmes plus simples, nous explorons la manière d’exploiter les similitudes entre les tâches et les domaines dans les systèmes de dialogue. En décomposant le problème principal en tâches élémentaires que nous maîtrisons, nous tirons parti de la hiérarchie pour résoudre efficacement des problèmes plus vastes et plus complexes. Cette approche permet d’économiser du temps de formation en partageant des stratégies entre des tâches similaires. Enfin, nous consolidons nos résultats précédents et soulignons l’importance de l’apprentissage à partir d’un petit nombre d’interactions humaines dans les applications du monde réel. Les techniques d’apprentissage efficaces sur le plan de l’échantillonnage sont essentielles dans ce contexte, et nos recherches portent sur le développement de solutions efficaces dans le cadre de nos découvertes précédentes.