Thèse soutenue

Modélisation des interruptions dans l’interaction humain-agent

FR  |  
EN
Auteur / Autrice : Liu Yang
Direction : Catherine PelachaudCatherine Achard
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 08/12/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Philippe Blache
Examinateurs / Examinatrices : Elisabetta Bevacqua, Frédéric Bevilacqua
Rapporteur / Rapporteuse : Chloé Clavel, Elisabeth André

Résumé

FR  |  
EN

Les interruptions jouent un rôle important dans l’élaboration de la communication humaine et se produisent fréquemment dans les conversations quotidiennes. Ils servent à réguler le flux des conversations, à transmettre des signaux sociaux et à promouvoir une compréhension partagée entre les locuteurs. La communication humaine implique une gamme de signaux multimodaux au-delà de la simple parole. Les modes de communication verbaux et non verbaux sont intimement liés, transmettant un contenu sémantique et pragmatique tout en adaptant le processus de communication. Le mode vocal intègre des fonctionnalités acoustiques, telles que la prosodie, tandis que le mode visuel englobe les expressions faciales, les gestes des mains et le langage corporel. L’essor de la communication virtuelle et en ligne a nécessité le développement d’une communication expressive pour les agents incarnés de type humain, notamment les agents conversationnels incarnés (ECA) et les robots sociaux. Pour favoriser des interactions fluides et naturelles entre les humains et les agents virtuels, il est crucial de doter les agents virtuels de la capacité de gérer les interruptions lors des interactions. Ce manuscrit se concentre sur l’étude des interruptions dans les interactions humain-humain et sur la possibilité pour les ECA d’interrompre les utilisateurs humains pendant les conversations. Les principaux objectifs de cette recherche sont doubles : (1) dans l'interaction humain-humain, analyse des signaux acoustiques et visuels pour catégoriser le type d'interruption et détecter le moment où les interruptions se produisent ; (2) doter ECA de la capacité de prédire quand interrompre et de générer son comportement multimodal. Pour atteindre ces objectifs, nous proposons un schéma d'annotation permettant d'identifier et de classer les échanges fluides, les canaux de retour et les différents types d'interruptions. Nous annotons manuellement les échanges dans deux corpus, une partie du corpus AMI et la partie française du corpus NoXi. Après avoir analysé les signaux non verbaux multimodaux, nous introduisons MIC, une approche permettant de classer le type d'interruption en fonction de signaux non verbaux sélectionnés (expression faciale, prosodie, mouvements de la tête et de la main) provenant des deux interlocuteurs (la personne interrompue et l'interrupteur). Nous introduisons également One-PredIT, qui utilise un classificateur à une classe pour identifier les points d'interruption potentiels en surveillant le comportement non verbal en temps réel du locuteur actuel (uniquement la personne interrompue). De plus, nous proposons AI-BGM, un modèle génératif pour calculer les expressions faciales et les rotations de la tête des ECA lors d'une interruption. Compte tenu de la quantité limitée de données à notre disposition, nous utilisons une technologie d'apprentissage par transfert pour entraîner notre modèle de génération de comportement d'interruption à l'aide du modèle de réseau neuronal bien entraîné Augmented Self-Attention Pruning.