Thèse soutenue

Méthodes neuronales pour la compréhension des dialogues parlés

FR  |  
EN
Auteur / Autrice : Emile Chapuis
Direction : Chloé ClavelMatthieu Labeau
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA: Signal, Images, Automatique et Robotique
Date : Soutenance le 15/12/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : François Yvon
Examinateurs / Examinatrices : Chloé Clavel, Matthieu Labeau, François Yvon, Benoît Favre, Verena Rieser, Christophe Cerisara, Emmanuel Morin
Rapporteurs / Rapporteuses : François Yvon, Benoît Favre

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'intelligence artificielle conversationnelle a suscité un intérêt croissant ces dernières années, tant dans la communauté des chercheurs que dans l'industrie. Des applications grand publique ont commencé à voir le jour (par exemple, Alexa d'Amazon, Home de Google, Siri d'Apple), mais les performances de ces systèmes sont encore loin d'une communication semblable à celle des humains. Par exemple, la conversation avec les systèmes susmentionnés se limite souvent à des interactions de base de type question-réponse. Parmi toutes les raisons pour lesquelles les gens communiquent, l'échange d'informations et le renforcement des liens sociaux semblent être les principales. Dans la recherche sur le dialogue, ces deux problèmes sont bien connus et abordés à l'aide de la classification des actes de dialogue et de la reconnaissance des émotions/sentiments. Ces problèmes sont d'autant plus difficiles à résoudre qu'ils concernent des dialogues parlés, contrairement aux textes écrits. Une conversation parlée est une activité complexe et collective qui possède une dynamique et une structure spécifiques. Il est donc nécessaire d'adapter les techniques de traitement et de compréhension du langage naturel qui ont été conçues pour les textes écrits car elles ne partagent pas les mêmes caractéristiques. Cette thèse se concentre sur les méthodes de compréhension des dialogues parlés et aborde spécifiquement le problème de la classification des dialogues parlés avec un accent particulier sur les étiquettes des actes de dialogue et des émotions/sentiments. Nos contributions peuvent être divisées en deux parties : dans la première partie, nous abordons le problème de l'étiquetage automatique des dialogues parlés en anglais. Dans cette partie, nous commençons par formuler ce problème comme un problème de traduction, ce qui nous amène à proposer un modèle seq2seq pour la classification des actes de dialogue. Ensuite, notre deuxième contribution se concentre sur un scénario reposant sur de petits ensembles de données annotées et implique à la fois le pré-entraînement d'un encodeur transformateur hiérarchique et la proposition d'un nouveau benchmark pour l'évaluation. Cette première partie aborde le problème de la classification du langage parlé dans des contextes monolingues (i.e. anglais) et monomod aux (i.e. texte). Cependant, les dialogues parlés impliquent des phénomènes tels que le code-switching (lorsqu'un locuteur change de langue au cours d'une conversation) et s'appuient sur plusieurs canaux pour communiquer (par exemple, audio ou visuel). La deuxième partie est donc consacrée à deux extensions des contributions précédentes dans deux contextes: multilingue et multimodal. Nous abordons d'abord le problème de la classification des actes de dialogue lorsque plusieurs langues sont impliquées et nous étendons donc les deux contributions précédentes à un scénario multilingue. Dans notre dernière contribution, nous explorons un scénario multimodal et nous nous concentrons sur la représentation et la fusion des modalités dans le cadre de la prédiction des émotions.