Thèse en cours

Sémantisation du contenu et du contexte pour la gestion de l'expériences utilisateur et de la multimodalité en environnement de réalité virtuelle et augmentée

FR  |  
EN
Auteur / Autrice : Nicolas Saint-leger
Direction : Patrick Bourdot
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/10/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Equipe de recherche : VENISE - R&VA
Référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

La réalité virtuelle et augmentée est longtemps restée une niche, mais avec l'avènement des casques immersifs bon marché, puis plus récemment des casques de réalité augmentée, de plus en plus d'applications et d'outils industriels ciblent ces environnements de réalité mixte, notamment pour la maintenance des ascenseurs, pour l'assistance au démontage et remontage d'avion, ou dans le cadre d'opération chirurgicale… Certaines GAFAM survendent l'usage de la réalité virtuelle et augmentée, en ridiculisant au passage le domaine avec des projections aussi peu réalistes que ridicules. Il reste qu'en réalité de nombreuses problématiques de recherche subsistent et reviennent au gout du jour étant donné la démocratisation des dispositifs, avec la nécessité, sans clavier ni souris, d'intégrer intelligemment à la fois la commande gestuelle, souvent médiatisée par des dispositifs d'interaction variés, et la commande vocale. Cette gestion de la multimodalité posent toujours des problèmes de recherche ardus, à la frontière entre l'interaction humain machine et de l'intelligence artificielle. Malgré les progrès importants dans ces deux domaines, le verrous scientifiques et technologiques relatifs au paradigme de Bolt, «Mets cet objet ici », archétype de toute commande multimodale, constituent les principaux freins l'usage de la réalité virtuelle et augmentée dans un usage quotidien et professionnelle. Si les progrès en apprentissage profond et les modèles de langue permettent désormais de reconnaitre plus efficacement les gestes ou les commandes vocales, l'intégration de plusieurs modalités pour construire une commande suppose une connaissance approfondie et structurée, à la fois du contexte d'interaction, mais aussi du contenu de la scène virtuelle. Ni l'apprentissage profond, ni les modèle de langues, ne sont susceptibles d'adresser globalement cette problématique qui impose une représentation sémantique formelle et explicite des concepts manipulés et pouvoir effectuer un raisonnement logique sur les concepts décrivant le contexte d'interaction et ceux relatifs aux contenus manipulés, et pour prendre en compte les intentions de l'utilisateur. C'est la raison nous nous inscrivons dans cette thèse dans la lignée des travaux liés aux environnements informés et à l'usage de représentations logiques et sémantiques pour outiller la gestion de la multimodalité et apporter plus d'intelligence' dans l'interaction et pour améliorer l'expérience utilisateur dans les environnements virtuels et augmentés. Il s'agira dans ce doctorat d'adosser à toute expérience virtuelle, une représentation sémantique formalisant en temps interactif à la fois le contexte d'interaction et le contenu numérique manipulé, de la manière la plus exhaustive possible. Cela suppose en amont d'utiliser, d'intégrer et d'enrichir les ontologies du domaine de la réalité virtuelle et augmentée déjà disponible, à associer aux ontologies de domaines liées à la nature des objets manipulés dans l'application ciblée. Cette formalisation du contenu et du contexte s'étend désormais au-delà des éléments virtuels, avec la nécessité d'intégrer les éléments réels d'un contexte de réalité mixte ou augmentée, ou objet virtuels et réel cohabitent, constituant des supports à l'interaction, des outils spécifiques à une tâche, ou simplement les objets métier d'intérêt édités dans l'application. Au-delà de cette dimension technologique, des aspects théoriques dans le domaine de la représentation des connaissances devront être adressés pour repousser les limites méthodologique actuelles notamment celle de la gestion de la temporalité et de la gestion de l'espace qui posent des problèmes spécifiques en réalité virtuelle et augmentée. Plusieurs fonctionnalités innovantes sont visées correspondant à des besoins de plus en plus urgents notamment en réalité augmentée : la première est d'améliorer la gestion de la multimodalité en entrée ou commande multimodale, qui ne peut être pas être interprétée correctement par la machine sans représentation sémantique approfondie durant l'interaction. La seconde fonctionnalité est la possibilité d'avoir une trace exhaustive a posteriori de tous les évènements et états caractéristiques d'une expérience virtuelle, dans un formalisme structuré et sémantique, et qui permet après l'expérience d'effectuer à la fois des requêtes avec un raisonnement sous-jacent. En effet, dans les expérimentations en réalité virtuelle et augmentée, et plus généralement en interaction humain machine, la gestion de ces traces s'effectuent par des données brutes, avec des développement adhoc pour enregistrer les variables dépendantes mesurées, alors qu'il est fréquent d'observer des phénomènes non prévisibles et donc non enregistrés, et qui font souvent l'objet de découvertes intéressantes au-delà des hypothèses testées. De telles traces exhaustives permettraient par ailleurs de rejouer les expériences utilisateur de manière systématique. La dernière est la nécessité de construire des ponts interactifs entre plusieurs applications 2D ou 3D dans la suite de travaux démontrant l'intérêt de relier et de synchroniser les données présentées dans un même contexte interactif, fonctionnalité requise dans un contexte de réalité augmentée ou plusieurs applications manipulant des concepts connexes sont utilisées conjointement. Ces recherches et ces fonctionnalités devront se concrétiser par une librairie et une API agnostique à l'outil utilisé pour concevoir l'expérience virtuelle. Le cadre applicatif servant d'éléments d'évaluation et de test est celui de la biologie moléculaire mobilisant les collaborations historiques de l'équipe. L'approche devra faire l'objet d'une évaluation de son utilité à travers plusieurs scénarios d'usage avec les experts du domaine applicatif ciblé, mais aussi en termes d'apport en tant qu'outil support à l'analyse d'expérience utilisateur dans les environnements de réalité mixte.