Streaming virtual reality : learning for attentional models and network optimization - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Streaming virtual reality : learning for attentional models and network optimization

Streaming de réalité virtuelle : apprentissage pour modèles attentionnels et optimisation réseau

Résumé

Virtual Reality (VR) has taken off in the last years thanks to the democratization of affordable head-mounted displays (HMDs), giving rise to a new market segment along with sizable research and industrial challenges. However, the development of VR systems is persistently hindered by the difficulty to access immersive content through Internet streaming. To decrease the amount of data to stream, a solution is to send in high resolution only the position of the sphere the user has access to at each point in time, named the Field of View (FoV).We develop a foveated streaming system for an eye-tracker equipped headset, which adapts to the user's fovea position by focusing the quality on the gaze target and delivering low-quality blurred content outside, so as to reproduce and help the natural focusing process while reducing bandwidth waste. This approach however requires to know the user's head position in advance, that is at the time of sending the content from the server.A number of recent approaches have proposed deep neural networks meant to exploit the knowledge of the past positions and of the 360° video content to periodically predict the next FoV positions. We address the strong need for a comparison of existing approaches on common ground with the design a framework that allows to prepare a testbed to assess comprehensively the performance of different head motion prediction methods. With this evaluation framework we re-assess the existing methods that use both past trajectory and visual content modalities, and we obtain the surprising result that they all perform worse than baselines we design using the user's trajectory only.We perform a root-cause analysis of the metrics, datasets and neural architectures that allows us to uncover major flaws of existing prediction methods (in the data, the problem settings, and the neural architectures). The dataset analysis helps us to identify how and when should the prediction benefit from the knowledge of the content. The neural architecture analysis shows us that only one architecture does not degrade compared to the baselines when ground-truth saliency is given to the model. However, when saliency features are extracted from the content, none of the existing architectures can compete with the same baselines.From the re-examination of the problem and supported with the concept of Structural-RNN, we design a new deep neural architecture, named TRACK. TRACK achieves state-of-the-art performance on all considered datasets and prediction horizons, outperforming competitors by up to 20% on focus-type videos and prediction horizons of 2 to 5 seconds.We also propose a white-box predictor model to investigate the connection between the visual content and the human attentional process, beyond above Deep Learning models, often referred to as "black-boxes". The new model we design is built on the physics of rotational motion and gravitation and named HeMoG.The prediction error of the head position might be corrected by downloading again the same segments in higher quality. Therefore, the consumed data rate depends on the prediction error (user's motion), which in turn depends on the user's attentional process and on possible attention-driving techniques.Film editing with snap-cuts can benefit the user's experience both by improving the streamed quality in the FoV and ensuring the user sees important elements of the content plot. However, snap-cuts should not be too frequent and may be avoided when not beneficial to the streamed quality. We formulate the dynamic decision problem of snap-cut triggering as a model-free Reinforcement Learning. We design Imitation Learning-based dynamic triggering strategies and show that only knowing the past user's motion and video content, is possible to outperform the controls without and with all cuts.
La réalité virtuelle (VR) a décollé ces dernières années grâce à la démocratisation des visiocasques, donnant naissance à un nouveau segment de marché ainsi qu'à d'importants défis industriels et de recherche. Cependant, le développement des systèmes de VR est constamment entravé par la difficulté d'accéder à du contenu immersif via le streaming sur Internet. Pour réduire la quantité de données à diffuser, une solution consiste à n'envoyer en haute résolution que la zone correspondant au champ de vision.Nous développons un système de streaming pour un casque équipé d'un dispositif d'oculométrie, qui s'adapte à la position de la fovéa de l'utilisateur en focalisant la qualité dans la cible du regard et en fournissant un contenu flou de faible qualité à l'extérieur, afin de reproduire et d'aider le processus naturel de focalisation tout en réduisant le gaspillage de bande passante. Cette approche nécessite cependant de connaître à l'avance la position de la tête de l'utilisateur.Un certain nombre d'approches récentes ont proposé des réseaux neuronaux pour prédire périodiquement les prochaines positions du champ visuel. Nous répondons au fort besoin de comparer les approches existantes sur un terrain commun en concevant un cadre qui permet de préparer un banc d'essai pour évaluer de manière exhaustive les performances des différentes méthodes de prédiction du mouvement de la tête. Nous réévaluons les méthodes existantes, et nous obtenons le résultat surprenant qu'elles sont toutes moins performantes que les lignes de base que nous concevons sans utiliser la modalité du contenu visuel.Nous effectuons une analyse approfondie des causes qui nous permet de découvrir les principaux défauts des méthodes de prédiction existantes. L'analyse des ensembles de données nous aide à identifier comment et quand la prédiction doit bénéficier de la connaissance du contenu. L'analyse de l'architecture neuronale nous montre qu'une seule architecture ne se dégrade pas par rapport aux lignes de base lorsque la vraie saillance est donnée au modèle. Cependant, lorsque les caractéristiques de saillance sont extraites du contenu, aucune des architectures existantes ne peut rivaliser avec les mêmes lignes de base.À partir du réexamen du problème et en nous appuyant sur le concept de RNN-structurel, nous concevons une nouvelle architecture neuronale profonde, appelée TRACK. TRACK atteint des performances de pointe sur tous les ensembles de données et horizons de prédiction considérés, surpassant ses concurrents jusqu'à 20% sur des vidéos de type focus et des horizons de prédiction de 2 à 5 secondes.Nous proposons également un modèle prédictif fondé sur la physique du mouvement de rotation et de la gravitation pour étudier le lien entre le contenu visuel et le processus attentionnel humain, au-delà des modèles souvent appelés "boîtes noires".L'erreur de prédiction de la position de la tête peut être corrigée en téléchargeant à nouveau les mêmes segments dans une qualité supérieure. Par conséquent, le débit de données consommé dépend de l'erreur de prédiction, qui dépend à son tour du processus attentionnel de l'utilisateur et d'éventuelles techniques de stimulation de l'attention.L'édition vidéo avec des coupures rapides peut être bénéfique pour l'expérience de l'utilisateur en améliorant la qualité du streaming dans le champ visuel et en garantissant que l'utilisateur voit les éléments importants de la trame du contenu. Cependant, les coupures rapides ne doivent pas être trop fréquentes et peuvent être évitées lorsqu'elles ne sont pas bénéfiques pour la qualité du streaming. Nous concevons des stratégies de déclenchement dynamique des coupures rapides basées sur l'apprentissage par imitation, et nous montrons qu'il est possible de surpasser la performance des contrôles sans et avec toutes les coupures uniquement en connaissant le mouvement passé de l'utilisateur et le contenu vidéo.
Fichier principal
Vignette du fichier
2021COAZ4063.pdf (21.13 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03482559 , version 1 (16-12-2021)

Identifiants

  • HAL Id : tel-03482559 , version 1

Citer

Miguel Fabián Romero Rondón. Streaming virtual reality : learning for attentional models and network optimization. Graphics [cs.GR]. Université Côte d'Azur, 2021. English. ⟨NNT : 2021COAZ4063⟩. ⟨tel-03482559⟩
132 Consultations
27 Téléchargements

Partager

Gmail Facebook X LinkedIn More