Thèse en cours

L'interaction humain-robot multimodal proactive dans un cadre hospitalier

FR  |  
EN
Auteur / Autrice : Timothée Dhaussy
Direction : Fabrice Lefevre
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/10/2020
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : Agrosciences et Sciences
Partenaire(s) de recherche : Laboratoire : LIA - Laboratoire d'Informatique d'Avignon
Equipe de recherche : SLG - Speech and Language Group

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'interaction humain-robot (Human-Robot Interaction ou HRI) est un domaine de recherche interdisciplinaire en robotique et en sciences sociales. Elle vise à comprendre, concevoir et évaluer l'utilisation des robots par les humains. Elle représente un enjeu important de la robotique sociale au 21ème siècle. Ces derniers temps, l'intérêt pour les robots compagnons aptes à aider les individus dans leur quotidien et à interagir avec eux a considérablement augmenté. Ces robots, considérés comme des entités sociales, ont démontré leur utilité dans les domaines des soins de santé et du bien-être psychologique des personnes âgées. La proactivité, ou la capacité à agir de manière anticipée et autonome, est une caractéristique intrinsèquement humaine qui permet d'influencer activement son environnement et ses circonstances, plutôt que d'y réagir passivement. Dans les interactions humain-robot, cette proactivité est cruciale car elle permet aux robots de réagir de manière plus naturelle et adaptée aux besoins des utilisateurs. Pour anticiper les besoins des utilisateurs et prendre des initiatives, le robot doit comprendre son environnement à l'aide de ses perceptions multimodales. Dans cette thèse, nous nous concentrons sur la création d'un système multimodal proactif pour le robot social Pepper, destiné à une salle d'attente d'hôpital. Pour ce faire, nous avons développé une architecture cognitive d'interaction humain-robot, fondée sur une boucle continue de perceptions, de représentation et de décision. Le flux de perceptions se divise en deux étapes : d'abord, la récupération des données des capteurs du robot, puis leur enrichissement grâce à des modules de raffinage. Un module de raffinage de diarisation du locuteur, basé sur une modélisation bayésienne de la fusion des perceptions audio et visuelles par coïncidence spatiale, a été intégré. Pour permettre une action proactive, nous avons conçu un modèle analysant la disponibilité des utilisateurs à une interaction dans une salle d'attente. Les perceptions ainsi raffinées sont ensuite ordonnées et alignées pour créer une représentation de l'environnement constamment mise à jour. Cette image de l'environnement est alors transmise à la couche décisionnelle. Là, un module de planification d'action analyse les données environnementales et élabore des stratégies d'action en informant les modules d'action de manière asynchrone. Cette capacité à fonctionner de manière asynchrone permet au planificateur d'action de continuer à guetter les opportunités proactives que lui confère la scène, malgré le fonctionnement d'un des sous modules d'action tel que le module de parole, chargé de tenir une conversation avec un utilisateur lors d'une interaction . L'ensemble du système est implémenté sur ROS, permettant ainsi son adaptation à divers supports robotiques. Cette thèse présente les mécanismes nécessaires à la création d'un système d'interaction multimodale proactif entre l'humain et le robot. Ce système inclut tous les modules de perception et d'action, ainsi qu'une architecture cognitive globale de la gestion des perceptions. L'ensemble a été testé dans un environnement de laboratoire contrôlé, ainsi que dans des conditions réelles à l'hôpital de Broca.