Compression d’images et de vidéos Light Field
Auteur / Autrice : | Nader Bakir |
Direction : | Olivier Déforges, Mohamad Khalil |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, Image, Vision |
Date : | Soutenance le 10/06/2020 |
Etablissement(s) : | Rennes, INSA |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) |
Partenaire(s) de recherche : | Laboratoire : Institut d'Électronique et de Télécommunications (Rennes) |
: Université Bretagne Loire (2016-2019) | |
Jury : | Président / Présidente : Bachar El Hassan |
Examinateurs / Examinatrices : Olivier Déforges, Mohamad Khalil, Bachar El Hassan, Frédéric Dufaux, Marco Cagnazzo, Khouloud Samrouth, Wassim Hamidouche | |
Rapporteur / Rapporteuse : Bachar El Hassan, Frédéric Dufaux |
Mots clés
Mots clés contrôlés
Résumé
Les applications de vision par ordinateur telles que le refocusing, la segmentation et la classification deviennent l'un des services les plus avancés dans le domaine de traitement d'image mais de telles applications nécessitent des informations sémantiques riches de la scène. La technologie 3D est largement utilisée dans les domaines de divertissement, d'imagerie médicale, de l'éducation. Il existe différentes manières de représenter l'information 3D. Une technologie récente dont l’importance est grandissante est proposée par les images Light Field (LF). L'image LF est une image non conventionnelle contenant des informations denses telles que l'intensité des rayons lumineux qui interagissent avec la scène. Cependant, un tel système d'imagerie présente de nombreux inconvénients, notamment une grande quantité de données produites. Des techniques de compression adaptées sont ainsi nécessaires.L’objectif de cette thèse est donc de développer des méthodes efficaces pour la compression d’images et de vidéos Light Field. Le succès récent de l'apprentissage profond dans divers domaines notamment dans les domaines du traitement des images et du son, a été établi comme un facteur clé dans nos travaux de recherches.La première partie de cette thèse propose un schéma de codage du champ lumineux basé sur CNN qui inclut RDO suivi d'un post-traitement. Le concept principal est d'exploiter la corrélation entre les différentes vues LF et d'éviter le codage de toutes les vues. Ainsi, un ensemble de vues LF est codé par un codeur 2D standard, puis les autres sont soit estimées par une approximation linéaire soit générées par CNN.Dans un second temps, une comparaison subjective entre les solutions de codage proposées et les standards ont montré des gains très significatifs.Enfin, la dernière partie de cette thèse a consisté à intégrer un Dual Discriminative Generative Adverserial Network (D2GAN) dans l'encodeur standard hiérarchique Versatile Video Coding (VVC). L'idée globale est de coder les vues du niveau hiérarchique supérieur et les générer avec D2GAN au niveau du décodeur.