Thèse soutenue

Analyse de signaux sociaux multimodaux : application à la synthèse d’attitudes sociales chez un agent conversationnel animé

FR  |  
EN
Auteur / Autrice : Thomas Janssoone
Direction : Gaël RichardKevin Bailly
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/02/2018
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Catherine Pelachaud
Examinateurs / Examinatrices : Justine Cassell, Magalie Ochs, Chloé Clavel
Rapporteurs / Rapporteuses : Pierre de Loor, Alexandre Pauchet

Résumé

FR  |  
EN

Lors d'une interaction, le comportement non-verbal apporte des informations sur l'état affectif de l'intervenant comme son attitude ou sa personnalité par exemple. Cela se traduit par des modulations dans l'utilisation de ses signaux sociaux : les variations dans les mouvements de tête, les expressions faciales ou la prosodie traduisent ces différents phénomènes affectifs. Désormais, l'utilisation d'agents conversationnels animés permet aux machines d'utiliser le même type de signaux sociaux. Ces agents peuvent ainsi améliorer la qualité de vie dans nos sociétés modernes s'ils proposent une interaction naturelle avec des utilisateurs humains. Pour cela, l'agent virtuel doit être capable d'exprimer différentes attitudes selon l'utilisateur, comme de la dominance pour un tuteur ou de la bienveillance pour un compagnon. La littérature en sociologie et psychologie souligne que la dynamique dans l'usage des signaux sociaux contient une information importante pour l'expression de différents états affectifs. Les travaux présentés dans cette thèse proposent donc des modèles centrés sur la temporalité, élaborés à partir de signaux sociaux extraits automatiquement de corpus d'études, afin d'exprimer un phénomène affectif voulu. L'analyse de cette information est toujours effectuée dans un but de synthèse de comportements pour pouvoir l'utiliser lors de la génération d'agents conversationnels animés. Ainsi, une revue des bases de données existantes justifie l'élaboration, dans cette thèse, d'un corpus de travail composé d'allocutions présidentielles. Les vidéos de bonne qualité le composant permettent alors l'utilisation d'algorithmes pour évaluer automatiquement les signaux sociaux. Après un traitement des signaux sociaux extraits, des vidéos sont générées où un agent clone les allocutions. Cela permet d'évaluer et de comparer la perception d'attitude avec l'humain et avec l'agent virtuel comme protagoniste. Le modèle SMART utilise la fouille de données pour trouver des règles d'associations temporelles dans des corpus d'interactions. Il permet de trouver une information temporelle précise dans l'utilisation de signaux sociaux et de la lier avec une attitude sociale. La structure de ses règles permet également de transposer cette information pour synthétiser le comportement d'un agent virtuel. Des études perceptives viennent valider cette approche. Une collaboration internationale a abouti au modèle SSN qui se base sur de l'apprentissage profond et de la séparation de domaine. Il permet un apprentissage multi-tâche de plusieurs phénomènes affectifs simultanément et propose ainsi une méthode d'analyse de la dynamique des signaux employés. Ces différentes contributions confirment l’intérêt de prendre en compte la temporalité dans la synthèse d'agents virtuels pour exprimer correctement certains phénomènes affectifs. Les perspectives proposent des pistes pour l'intégration de cette information dans des solutions multimodales.