Apprentissage de modèles d'interactions multimodaux dans les sociétés mixtes
| Auteur / Autrice : | Muhammad Usman Malik |
| Direction : | Alexandre Pauchet |
| Type : | Thèse de doctorat |
| Discipline(s)Â :Â | Informatique |
| Date : | Soutenance le 24/11/2020 |
| Etablissement(s)Â :Â | Normandie |
| Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
| Partenaire(s) de recherche : | Etablissement de préparation : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....) |
| Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...) | |
| Jury : | Président / Présidente : Pierre Chevaillier |
| Examinateurs / Examinatrices : Alexandre Pauchet, Chloé Clavel, Mohamed Chetouani, Julien Saunier, Elisabeth André, Kotaro Funakoshi | |
| Rapporteurs / Rapporteuses : Chloé Clavel, Mohamed Chetouani |
Mots clés
Résumé
Les travaux de recherche proposés se situe au carrefour de deux domaines de recherche, l'interaction humain-agent et l'apprentissage automatique. L’interaction humain-agent fait référence aux techniques et concepts impliqués dans le développement des agents intelligents, tels que les robots et les agents virtuels, capables d'interagir avec les humains pour atteindre un objectif commun. L’apprentissage automatique, d'autre part, exploite des algorithmes statistiques pour apprendre des modèles de donnée. Les interactions humaines impliquent plusieurs modalités, qui peuvent être verbales comme la parole et le texte, ainsi que les comportements non-verbaux, c'est-à -dire les expressions faciales, le regard, les gestes de la tête et des mains, etc. Afin d'imiter l'interaction humain-humain en temps réel en interaction humain-agent, plusieurs modalités d'interaction peuvent être exploitées. Avec la disponibilité de corpus d'interaction multimodales humain-humain et humain-agent, les techniques d'apprentissage automatique peuvent alors être utilisées pour développer des modèles interdépendants participant à l'interaction humain-agent. À cet égard, nos travaux de recherche proposent des modèles originaux pour la détection de destinataires d'énoncés, le changement de tour de parole et la prédiction du prochain locuteur, et enfin la génération de comportement d'attention visuelle en interaction multipartie. Notre modèle de détection de destinataire prédit le destinataire d'un énoncé lors d'interactions impliquant plus de deux participant. Le problème de détection de destinataires a été traité comme un problème d'apprentissage automatique multiclasse supervisé. Plusieurs algorithmes d'apprentissage ont été entrainés pour développer des modèles de détection de destinataires. Les résultats obtenus montrent que ces propositions sont plus performants qu'un algorithme de référence. Le second modèle que nous proposons concerne le changement de tour de parole et la prédiction du prochain locuteur dans une interaction multipartie. La prédiction du changement de tour est modélisée comme un problème de classification binaire alors que le modèle de prédiction du prochain locuteur est considéré comme un problème de classification multiclasse. Des algorithmes d'apprentissage automatique sont entraînés pour résoudre ces deux problèmes interdépendants. Les résultats montrent que les modèles proposés sont plus performants que les modèles de référence. Enfin, le troisième modèle proposé concerne le problème de génération du comportement d'attention visuelle (CAV) pour les locuteurs et les auditeurs dans une interaction multipartie. Ce modèle est divisé en plusieurs sous-modèles qui sont entraînés par l'apprentissage machine ainsi que par des techniques heuristiques. Les résultats attestent que les systèmes que nous proposons sont plus performants que les modèles de référence développés par des approches aléatoires et à base de règles. Le modèle de génération de comportement CAV proposé est mis en œuvre sous la forme d’une série de quatre modules permettant de créer différents scénarios d’interaction entre plusieurs agents virtuels. Afin de l’évaluer, des vidéos enregistrées pour les modèles de génération de CAV pour les orateurs et les auditeurs, sont présentées à des évaluateurs humains qui évaluent les comportements de référence, le comportement réel issu du corpus et les modèles proposés de CAV sur plusieurs critères de naturalité du comportement. Les résultats montrent que le comportement de CAV généré via le modèle est perçu comme plus naturel que les bases de référence et aussi naturel que le comportement réel.