Multimodal Expressive Gesturing With Style - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Multimodal Expressive Gesturing With Style

Gestes expressifs multimodaux avec style

Résumé

The generation of expressive gestures allows Embodied Conversational Agents (ECA) to articulate the speech intent and content in a human-like fashion. The central theme of the manuscript is to leverage and control the ECAs’ behavioral expressivity by modelling the complex multimodal behavior that humans employ during communication. The driving forces of the Thesis are twofold: (1) to exploit speech prosody, visual prosody and language with the aim of synthesizing expressive and human-like behaviors for ECAs; (2) to control the style of the synthesized gestures such that we can generate them with the style of any speaker. With these motivations in mind, we first propose a semantically aware and speech-driven facial and head gesture synthesis model trained on the TEDx Corpus which we collected. Then we propose ZS-MSTM 1.0, an approach to synthesize stylized upper-body gestures, driven by the content of a source speaker’s speech and corresponding to the style of any target speakers, seen or unseen by our model. It is trained on PATS Corpus which includes multimodal data of speakers having different behavioral style. ZS-MSTM 1.0 is not limited to PATS speakers, and can generate gestures in the style of any newly coming speaker without further training or fine-tuning, rendering our approach zero-shot. Behavioral style is modelled based on multimodal speakers’ data - language, body gestures, and speech - and independent from the speaker’s identity ("ID"). We additionally propose ZS-MSTM 2.0 to generate stylized facial gestures in addition to the upper-body gestures. We train ZS-MSTM 2.0 on PATS Corpus, which we extended to include dialog acts and 2D facial landmarks.
La génération de gestes expressifs permet aux agents conversationnels animés (ACA) d'articuler un discours d'une manière semblable à celle des humains. Le thème central du manuscrit est d'exploiter et contrôler l'expressivité comportementale des ACA en modélisant le comportement multimodal que les humains utilisent pendant la communication. Le but est (1) d’exploiter la prosodie de la parole, la prosodie visuelle et le langage dans le but de synthétiser des comportements expressifs pour les ACA; (2) de contrôler le style des gestes synthétisés de manière à pouvoir les générer avec le style de n'importe quel locuteur. Nous proposons un modèle de synthèse de gestes faciaux à partir du texte et la parole; et entraîné sur le corpus TEDx que nous avons collecté. Nous proposons ZS-MSTM 1.0, une approche permettant de synthétiser des gestes stylisés du haut du corps à partir du contenu du discours d'un locuteur source et correspondant au style de tout locuteur cible. Il est entraîné sur le corpus PATS qui inclut des données multimodales de locuteurs ayant des styles de comportement différents. Il n'est pas limité aux locuteurs de PATS, et génère des gestes dans le style de n'importe quel nouveau locuteur vu ou non par notre modèle, sans entraînement supplémentaire, ce qui rend notre approche «zero-shot». Le style comportemental est modélisé sur les données multimodales des locuteurs - langage, gestes et parole - et indépendamment de l'identité du locuteur. Nous proposons ZS-MSTM 2.0 pour générer des gestes faciaux stylisés en plus des gestes du haut du corps. Ce dernier est entraîné sur une extension de PATS, qui inclut des actes de dialogue et des repères faciaux en 2D.
Fichier principal
Vignette du fichier
FARES_Mireille_theseV2_2023.pdf (14.34 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04100511 , version 1 (17-05-2023)

Identifiants

  • HAL Id : tel-04100511 , version 1

Citer

Mireille Fares. Multimodal Expressive Gesturing With Style. Human-Computer Interaction [cs.HC]. Sorbonne Université, 2023. English. ⟨NNT : 2023SORUS017⟩. ⟨tel-04100511⟩
112 Consultations
94 Téléchargements

Partager

Gmail Facebook X LinkedIn More