Thèse soutenue

Mesure sans référence de la qualité des vidéos haute définition diffusées avec des pertes de transmission

FR  |  
EN
Auteur / Autrice : Hugo Boujut
Direction : Jenny Benois PineauToufik Ahmed
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/09/2012
Etablissement(s) : Bordeaux 1
Ecole(s) doctorale(s) : École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Jean-Philippe Domenger
Examinateurs / Examinatrices : Ofer Hadar
Rapporteur / Rapporteuse : Edward J. Delp, Christine Fernandez-Maloigne

Résumé

FR  |  
EN

Les objectifs de ce travail de thèse ont été: d’une part de détecter automatique-ment les images gelées dans des vidéos télédiffusées; et d’autre part de mesurer sans référencela qualité des vidéos télédiffusées (IP et DVB-T). Ces travaux ont été effectués dans le cadred’un projet de recherche mené conjointement par le LaBRI et la société Audemat WorldCastSystems.Pour la détection d’images gelées, trois méthodes ont été proposées: MV (basée vecteurde mouvement), DC (basée sur les coefficients DC de la DCT) et SURF (basée sur les pointscaractéristiques SURF). Les deux premières méthodes ne nécessitent qu’un décodage partieldu flux vidéo.Le second objectif était de mesurer sans référence la qualité des vidéos télédiffusées (IP etDVB-T). Une métrique a été développée pour mesurer la qualité perçue lorsque le flux vidéoa été altéré par des pertes de transmission. Cette métrique ''Weighted Macro-Block ErrorRate'' (WMBER) est fondée sur la mesure de la saillance visuelle et la détection des macro-blocs endommagés. Le rôle de la saillance visuelle est de pondérer l’importance des erreursdétectées. Certaines améliorations ont été apportées à la construction des cartes de saillancespatio-temporelle. En particulier, la fusion des cartes de saillance spatiale et temporelle aété améliorée par rapport à l’état de l’art. Par ailleurs, plusieurs études ont montré que lasémantique d’une scène visuelle avait une influence sur le comportement du système visuelhumain. Il apparaît que ce sont surtout les visages humains qui attirent le regard. C’est laraison pour laquelle nous avons ajouté une dimension sémantique aux cartes de saillancespatio-temporelle. Cette dimension sémantique est essentiellement basée sur le détecteurde visage de Viola Jones. Pour prédire la qualité perçue par les utilisateurs, nous avonsutilisé une méthode par apprentissage supervisé. Cette méthode offre ainsi la possibilité deprédire la métrique subjective ''Mean Opinion Score'' (MOS) à partir de mesures objectivestelles que le WMBER, PSNR ou SSIM. Une expérience psycho-visuelle a été menée avec 50sujets pour évaluer ces travaux. Cette base de données vidéo Haute-Définition est en coursde transfert à l’action COST Qualinet. Ces travaux ont également été évalués sur une autrebase de données vidéo (en définition standard) provenant de l’IRCCyN