Génération multimodale de comportement et transfert de style pour l'animation d'agents virtuels
Auteur / Autrice : | Téo Guichoux |
Direction : | Catherine Pelachaud |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 01/10/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut des Systèmes Intelligents et de Robotique |
Mots clés
Résumé
Les humains communiquent à travers la parole, mais aussi par leurs gestes, leur posture corporelle, leurs expressions faciales, leur regard, le toucher, la prosodie de la parole, etc., une large gamme de signaux multimodaux. Le comportement verbal et non verbal joue un rôle crucial dans l'envoi et la perception de nouvelles informations lors des interactions humaines. Selon le contexte de communication et le public, une personne adapte continuellement son style pendant l'interaction. Cette adaptation stylistique implique des modalités verbales et non verbales telles que la langue, la prosodie de la parole, les expressions faciales, les gestes de la main et la posture corporelle. Les agents virtuels, également appelés Agents Conversationnels Incarnés (ACI), sont des entités capables de communiquer verbalement et non verbalement avec des interlocuteurs humains. Leurs rôles peuvent varier en fonction des applications. Ils peuvent agir en tant que tuteur, assistant, voire compagnon. Adapter le style de comportement de l'agent à son contexte d'interaction garantit une meilleure implication et adhésion des utilisateurs humains. Un grand nombre de modèles génératifs ont été proposés au cours des dernières années pour synthétiser les gestes des ACI. Récemment, la modélisation et le transfert de style ont suscité une attention croissante afin d'adapter le comportement de l'ACI à son contexte et à son public. Les recherches les plus récentes proposent des architectures neuronales comprenant des codeurs de contenu et de style, ainsi qu'un décodeur conditionné pour générer le comportement gestuel de l'ACI correspondant au contenu et au style souhaité. Alors que les premières tentatives se sont concentrées sur la modélisation du style d'un seul locuteur, on observe un effort croissant vers la modélisation et le transfert multi-locuteurs et multi-styles. En particulier, les architectures de transfert de style tentent de générer un comportement gestuel dans un certain style avec le minimum de données du style souhaité et les exigences minimales en termes de formation ou d'ajustement ultérieur.