Thèse soutenue

Génération du Comportement du Robot et Compréhension du Comportement Humain dans L'interaction Naturelle Humain-Robot

FR  |  
EN
Auteur / Autrice : Chuang Yu
Direction : Adriana Tapus
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 24/06/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : École nationale supérieure de techniques avancées (Palaiseau). Unité d'Informatique et d'Ingénierie des Systèmes
Jury : Président / Présidente : Amel Bouzeghoub
Examinateurs / Examinatrices : Tony Belpaeme
Rapporteur / Rapporteuse : Emanuele Frontoni, Rachid Alami

Résumé

FR  |  
EN

Pouvoir afficher une interaction naturelle a un impact significatif dans la réussite d’une interaction humain-robot (HRI). Quand nous parlons d’une HRI naturelle, nous faisons référence à la fois à la compréhension du comportement multimodal humain et à la génération de comportements verbaux ou non verbaux du robot. Les humains peuvent naturellement communiquer par le biais du langage et de comportements non verbaux. Par conséquent, un robot doit percevoir et comprendre les comportements humains afin d'être capable de produire un comportement multimodal et naturel qui corresponde au contexte social. Dans cette thèse, nous explorons la compréhension du comportement humain et la génération du comportement du robot pour une HRI naturelle. Cela comprend la reconnaissance multimodale des émotions humaines avec des informations visuelles extraites des cameras RGB-D et thermiques, et la synthèse du comportement non verbal du robot.La perception des émotions humaines en tant que composante fondamentale de la communication joue un rôle important dans le succès des interactions entre un robot et un humain. La reconnaissance des émotions basée sur les comportements humains multimodaux lors d’une HRI peut aider les robots à comprendre les états des utilisateurs et à produire une interaction sociale naturelle. Dans cette thèse, nousinvestiguons la reconnaissance multimodale des émotions avec des informations thermiques du visage et des données de la marche humaine. Une base de données multimodale contenant des images thermiques du visage et des données de la marche en 3D a été créée grâce aux expériences d'HRI. Nous avons testé les différents classificateurs d'émotions unimodaux (c-à-d, CNN, HMM, forêts aléatoires, SVM) et un classificateur d'émotions hybride pour la reconnaissance des émotions hors ligne. Nous avons également exploré un système de reconnaissance des émotions en ligne avec des capacités limitées dans le cadre de l’HRI en temps réel. L'interaction joue un rôle essentiel dans l'apprentissage des compétences pour une communication naturelle. Pour améliorer notre système de reconnaissance des émotions en ligne, nous avons développé un modèle d'apprentissage robotique interactif (IRL) avec l'humain dans la boucle. Le modèle IRL peut appliquer la rétroaction verbale humaine pour étiqueter ou réétiqueter les données pour améliorer le modèle de reconnaissance des émotions dans une situation d'interaction à long terme. Après avoir utilisé le modèle d'apprentissage interactif du robot, le robot a pu obtenir une meilleure précision de reconnaissance des émotions en temps réel.Les comportements humains non verbaux tels que les gestes et les expressions faciales se produisent spontanément avec la parole, ce qui conduit à une interaction naturelle et expressive. La génération de gestes et d’expressions faciales par la parole est essentielle pour permettre à un robot social d'exposer des signaux sociaux et de mener une HRI réussie. Cette thèse propose une nouvelle architecture temporelle GAN (Generative Adversarial Network) pour une cartographie un-à-plusieurs de la représentation acoustique de la parole aux gestes correspondants du robot humanoïde. Nous avons également développé une base de données audiovisuelle pour entraîner le modèle de génération de gestes à partir de la parole. La base de données comprend les données audio extraites directement des vidéos et les données des gestes humaines. Notre synthétiseur de gestes peut être appliqué à des robots sociaux avec des bras. Le résultat de l'évaluation montre l'efficacité de notre modèle génératif pour la génération de gestes de robot à partir de la parole. De plus, nous avons développé un synthétiseur d'expression faciale efficace basé sur GAN. Etant donné un signal audio, une séquence faciale synchrone et réaliste est générée. Nous avons testé cette partie avec le robot Zeno.