Thèse soutenue

Traitement générique des références dans le cadre multimodal parole-image-tactile

FR
Auteur / Autrice : Ali Choumane
Direction : Jacques Siroux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Rennes 1

Résumé

FR  |  
EN

Nous nous intéressons dans cette thèse aux systèmes de communication homme-machine multimodale qui utilisent les modes suivants : la parole, le geste et le visuel. L'usager communique avec le système par un énoncé oral en langue naturelle et/ou un geste. Dans sa requête, encodée sur les différentes modalités, l'usager exprime son but et désigne des objets (référents) nécessaires à la réalisation de ce but. Le système doit identifier de manière précise et non ambiguë ces objets désignés. Afin d'améliorer la compréhension automatique des requêtes multimodales dans ce contexte, nous proposons un ensemble générique de traitement des modalités, de fusion et de résolution des expressions référentielles. Les principaux aspects de la réalisation consistent en les modélisations du traitement de la langue naturelle dans le contexte de la parole, du traitement du geste et du contexte visuel (utilisation de la saillance visuelle) en prenant en compte les difficultés inhérentes en contexte de la communication multimodale : erreur de reconnaissance de la parole, ambiguïté de la langue naturelle, imprécision du geste due à la performance de l'usager, ambiguïté dans la désignation due à la perception des objets affichés ou à la topologie de l'affichage. Pour l'interprétation complète de la requête nous proposons une méthode de fusion/vérification des résultats des traitements de chaque modalité pour trouver les objets désignés par l'usager.