Transmodalité de flux d'images de synthèse

par Pierre-Olivier Rocher

Thèse de doctorat en Informatique

Sous la direction de Jacques Fayolle.

Soutenue le 31-10-2014

à Saint-Etienne , dans le cadre de École doctorale Sciences Ingénierie Santé (Saint-Etienne) , en partenariat avec Laboratoire Télécom Claude Chappe (Saint-Etienne) (laboratoire) .

Le président du jury était Frédérique Laforest.

Le jury était composé de Jacques Fayolle, Jean-Claude Dufourd, Christophe Gravier, Marius Preda, Valeriu Vrabie.


  • Résumé

    Ces dernières années, l’utilisation de la vidéo comme support de diffusion de l’information est devenue prépondérante. Selon certains analystes, d’ici 2017, environ 90% de la bande passante mondiale sera consommée par des services utilisant des flux vidéos. Basées sur ce genre de services, les solutions de cloud gaming se démocratisent. Ces solutions ont été imaginées dans un contexte de développement fort du paradigme de cloud computing, et elles ont été dopées par la prolifération des terminaux mobiles ainsi que par la qualité des réseaux qui ne cesse de croître. Les technologies mises en œuvre dans ce type de solutions se réfèrent au rendu à distance. Pour permettre au plus grand nombre l’accès à ce type d’applications, mais aussi pour maximiser le nombre de clients par serveur, il est primordial de maîtriser au mieux la bande passante nécessaire au bon fonctionnement du service. Toutes les solutions de cloud gaming existantes utilisent une compression vidéo pour la transmission des images générées sur un serveur et à destination d’un client : le pixel règne en maître. Néanmoins, il existe bien d’autres façons de représenter une image numérique, notamment de manière paramétrique. Un certain nombre de travaux – à la fois sur l’image et la vidéo – montrent que cette approche est viable. Dans cette thèse, nous proposons un espace de représentation hybride afin de réduire le débit binaire. Notre approche repose à la fois sur une approche pixel, mais aussi sur une approche paramétrique pour la compression d’un même flux vidéo. L’utilisation de deux systèmes de compression nécessite la définition de zones, auxquelles s’appliqueront les différents encodeurs. Pour le cas d’utilisation choisi, l’utilisateur étant un joueur impliqué de manière active dans la chaîne de rendu, il est intéressant d’utiliser un partitionnement de l’image dépendant des zones ou se porte son attention. Pour déterminer les zones importantes à ses yeux, un eye-tracker a été utilisé sur plusieurs jeux et par plusieurs testeurs. Cette étude permet de mettre en avant différentes corrélations, tant au niveau des caractéristiques des images que du type de jeu utilisé. Cette étude permet de connaître les zones que le joueur regarde ou ne regarde pas directement (obtention des « cartes d’attention sélective »), et ainsi de gérer les encodeurs en conséquence. Nous établissons ensuite l’architecture et l’implémentation d’un tel encodeur multimodal (que nous appelons « transmodeur ») afin d’établir la preuve de réalisation d’un tel encodeur. Profitant alors de la maîtrise complète de l’implémentation, nous nous livrons ensuite à l’analyse de l’influence des paramètres de notre transmodeur quant à son efficacité au moyen d’une étude objective. Le transmodeur a été intégré dans la chaîne de rendu utilisée par le projet XLcloud. Un certain nombre d’améliorations (au niveau des performances notamment) seront nécessaires pour une utilisation en production, mais il est dès à présent possible de l’utiliser de manière fluide en se limitant à des résolutions spatiales légèrement inférieures au 720p et à 30 images par seconde

  • Titre traduit

    Synthetic picture stream transmodality


  • Résumé

    The use of video as an information dissemination support has become preponderant during the last few years. According to some analysts, by 2017 approximately 90% of the world's bandwidth will be consumed by video streaming services. These services have encouraged cloud gaming solutions to become more democratic. Such solutions have been devised in the context of strong development of the cloud-computing paradigm, and they were driven by the proliferation of mobile devices as well as growing network quality. The technologies used in this kind of solutions refer to as remote rendering. They allow the execution of multiple applications, while maximizing the number of clients per server. Thus, it is essential to control the necessary bandwidth to allow the required functionality of various services. The existing cloud gaming solutions in the literature use various methods of video compression to transmit images between sever and clients (pixels reigns supreme). However, there are various other ways of encoding digital images, including parametric map storage and a number of studies encourage this approach (for both image and video). In this thesis, we propose a hybrid representation of space in order to reduce the bit rate. Our approach utilizes both pixel and parametric approaches for the compression of video stream. The use of two compression techniques requires defining the area to be covered by different encoders. This is accomplished by including user to the life cycle of rendering, and attending to the area mostly concerned to the user. In order to identify the area an eye-tracker device was used on several games and several testers. We also establish a correlation between the characteristics of images and the type of game. This helps to identify areas that the player looks directly or indirectly (“maps of selective attention"), and thus, encoders are manager accordingly. For this thesis, we details and implement the architecture and algorithms for such multi-model encoder (which we call "transmodeur") as proof of concept. We also provide an analytical study of out model and the influence of various parameters on transmodeur and describe in effectiveness through an objective study. Our transmodeur (rendering system) has been successfully integrated into XLcloud project for rendering purposes. A number of improvement (especially in performance) will be required for production use, but it is now possible to use it smoothly using spatial resolutions slightly lower than 720p at 30 frames per second


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Jean Monnet. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.