Thèse soutenue

Représentations perceptuelles de l'Information structurelle et géométrique des images : approches bio inspirées et par apprentissage machine : application à la qualité visuelle de médias immersifs

FR  |  
EN
Auteur / Autrice : Suiyi Ling
Direction : Patrick Le Callet
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 29/10/2018
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche : COMUE : Université Bretagne Loire (2016-2019)
Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Luce Morin
Examinateurs / Examinatrices : Frédéric Dufaux, Dragan Kukolj, Vincent Courboulay, Nathalie Guyader

Mots clés

FR

Mots clés libres

Résumé

FR  |  
EN

Ce travail vise à mieux évaluer la qualité perceptuelle des images contenant des distorsions structurelles et géométriques notamment dans le contexte de médias immersifs. Nous proposons et explorons un cadre algorithmique hiérarchique de la perception visuelle. Inspiré par le système visuel humain, nous investiguons plusieurs niveaux de représentations des images : bas niveau (caractéristiques élémentaires comme les segments), niveau intermédiaire (motif complexe, encodage de contours), haut niveau (abstraction et reconnaissance des données visuelles). La première partie du manuscrit traite des représentations bas niveau pour la structure et texture. U n modèle basé filtre bilatéral est d’abord introduit pour qualifier les rôles respectifs de l’information texturale et structurelle dans diverses tâches d’évaluation (utilité, qualité. . . ). Une mesure de qualité d’image/vidéo est proposée pour quantifier les déformations de structure spatiales et temporelles perçues en utilisant une métrique dite élastique. La seconde partie du mémoire explore les représentations de niveaux intermédiaires. Un modèle basé « schetch token » et un autre basé sur codage d’un arbre de contexte sont présentés pour évaluer la qualité perçue. La troisième partie traite des représentations haut niveau. Deux approches d’apprentissage machine sont proposées pour apprendre ces représentations : une basée sur un technique de convolutional sparse coding, l’autre sur des réseaux profonds de type generative adversarial network. Au long du manuscrit, plusieurs expériences sont menées sur différentes bases de données pour plusieurs applications (FTV, visualisation multi-vues, images panoramiques 360. . . ) ainsi que des études utilisateurs.