Thèse soutenue

Intelligence Socio-Affective pour un Robot : primitives langagières pour une interaction évolutive d'un robot de l’habitat intelligent
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Yuko Sasa
Direction : Véronique AubergéGang Feng
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/01/2018
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Jury : Président / Présidente : Martine Adda-Decker
Examinateurs / Examinatrices : Yoshinori Sagisaka
Rapporteurs / Rapporteuses : Mohamed Chetouani, Daniel Luzzati

Résumé

FR  |  
EN

Le Traitement Automatique de la Parole (TAP) s’intéresse de plus en plus et progresse techniquement en matière d’étendue de vocabulaire, de gestion de complexité morphosyntaxique, de style et d’esthétique de la parole humaine. L’Affective Computing tend également à intégrer une dimension « émotionnelle » dans un objectif commun au TAP visant à désambiguïser le langage naturel et augmenter la naturalité de l’interaction personne-machine. Dans le cadre de la robotique sociale, cette interaction est modélisée dans des systèmes d’interaction, de dialogue, qui tendent à engendrer une dimension d’attachement dont les effets doivent être éthiquement et collectivement contrôlés. Or la dynamique du langage humain situé met à mal l’efficacité des systèmes automatiques. L’hypothèse de cette thèse propose dans la dynamique des interactions, il existerait une « glu socio-affective » qui ferait entrer en phases synchroniques deux individus dotés chacun d’un rôle social impliqué dans une situation/contexte d’interaction. Cette thèse s'intéresse à des dynamiques interactionnelles impliquant spécifiquement des processus altruistes, orthogonale à la dimension de dominance. Cette glu permettrait ainsi de véhiculer les événements langagiers entre les interlocuteurs, en modifiant constamment leur relation et leur rôle, qui eux même viennent à modifier cette glu, afin d’assurer la continuité de la communication. La seconde hypothèse propose que la glu socio-affective se construise à partir d’une « prosodie socio-affective pure » que l’on peut retrouver dans certaines formes de micro-expressions vocales. L’effet de ces événements langagiers serait alors graduel en fonction du degré de contrôle d’intentionnalité communicative qui s’observerait successivement par des primitives langagières : 1) des bruits de bouche (non phonétiques, non phonologiques), 2) des sons prélexicaux, 3) des interjections/onomatopées, 4) des imitations à contenu lexical contrôlé. Une méthodologie living-lab est ainsi développée au sein de la plateforme Domus, sur des boucles agiles et itératives co-construites avec les partenaires industriels et sociétaux. Un Magicien d’Oz – EmOz – est utilisé afin de contrôler les primitives vocales comme unique support langagier d’un robot majordome d’un habitat intelligent interagissant avec des personnes âgées en isolement relationnel. Un large corpus, EmOz Elderly Expressions –EEE– est ainsi recueilli. Cet isolement relationnel permet méthodologiquement d’appréhender les dimensions de la glu socio-affective, en introduisant une situation contrastive dégradée de la glu. Les effets des primitives permettraient alors d’observer les comportements de l’humain à travers des indices multimodaux. Les enjeux sociétaux abordés par la gérontechnologie montrent que l’isolement est un facteur de fragilisation où la qualité de la communication délite le maillage relationnel des personnes âgées alors que ces liens sont bénéfiques à sa santé et son bien-être. L’émergence de la robotique d’assistance en est une illustration. Le système automatisé qui découlera des données et des analyses de cette étude permettrait alors d’entraîner les personnes à solliciter pleinement leurs mécanismes de construction relationnelle, afin de redonner l’envie de communiquer avec leur entourage humain. Les analyses du corpus EEE recueilli montrent une évolution de la relation à travers différents indices interactionnels, temporellement organisés. Ces paramètres visent à être intégrés dans une perspective de système de dialogue incrémental – SASI. Les prémisses de ce système sont proposées dans un prototype de reconnaissance de la parole dont la robustesse ne dépendra pas de l’exactitude du contenu langagier reconnu, mais sur la reconnaissance du degré de glu, soit de l’état relationnel entre les locuteurs. Ainsi, les erreurs de reconnaissance tendraient à être compensées par l’intelligence socio-affective adaptative de ce système dont pourrait être doté le robot.