Thèse soutenue

Décodage par liste de vidéos assisté par apprentissage profond dans des systèmes de transmission vidéo sujets aux erreurs

FR  |  
EN
Auteur / Autrice : Yujing Zhang
Direction : François-Xavier CoudouxStéphane Coulombe
Type : Thèse de doctorat
Discipline(s) : Electronique, microélectronique, nanoélectronique et micro-ondes
Date : Soutenance le 23/09/2024
Etablissement(s) : Valenciennes, Université Polytechnique Hauts-de-France en cotutelle avec École de technologie supérieure (Montréal, Canada)
Ecole(s) doctorale(s) : École doctorale polytechnique Hauts-de-France (Valenciennes, Nord ; 2021-....)
Partenaire(s) de recherche : Laboratoire : Institut d'Electronique, de Microélectronique et de Nanotechnologie
Etablissement délivrant conjointement le doctorat : Institut national des sciences appliquées Hauts-de-France (Valenciennes, Nord ; 2019-....)
Jury : Président / Présidente : Marco Pedersoli
Examinateurs / Examinatrices : François-Xavier Coudoux, Stéphane Coulombe, Hassan Rabah, Anissa Mokraoui, Farida Cheriet
Rapporteur / Rapporteuse : Hassan Rabah, Anissa Mokraoui

Résumé

FR  |  
EN

Au cours des dernières années, les applications vidéo ont connu un développement rapide. Par ailleurs, l’expérience en matière de qualité vidéo s’est considérablement améliorée grâce à l’avènement de la vidéo HD et à l’émergence des contenus 4K. En conséquence, les flux vidéo ont tendance à représenter une plus grande quantité de données. Pour réduire la taille de ces flux vidéo, de nouvelles solutions de compression vidéo telles que HEVC ont été développées.Cependant, les erreurs de transmission susceptibles de survenir sur les réseaux peuvent provoquer des artefacts visuels indésirables qui dégradent considérablement l'expérience utilisateur. Diverses approches ont été proposées dans la littérature pour trouver des solutions efficaces et peu complexes afin de réparer les paquets vidéo contenant des erreurs binaires, en évitant ainsi une retransmission coûteuse et incompatible avec les contraintes de faible latence de nombreuses applications émergentes (vidéo immersive, télé-opération). La correction d'erreurs basée sur le contrôle de redondance cyclique (CRC) est une approche prometteuse qui utilise des informations facilement disponibles sans surcoût de débit. Cependant, elle ne peut corriger en pratique qu'un nombre limité d'erreurs. Selon le polynôme générateur utilisé, la taille des paquets et le nombre maximum d'erreurs considéré, cette méthode peut conduire non pas à un paquet corrigé unique, mais plutôt à une liste de paquets possiblement corrigés. Dans ce cas, le décodage de liste devient pertinent en combinaison avec la correction d'erreurs basée CRC ainsi qu'avec les méthodes exploitant l'information sur la fiabilité des bits reçus. Celui-ci présente toutefois des inconvénients en termes de sélection de vidéos candidates. Suite à la génération des candidats classés lors du processus de décodage de liste dans l'état de l'art, la sélection finale considéra souvent le premier candidat valide dans la liste finale comme vidéo reconstruite. Cependant, cette sélection simple est arbitraire et non optimale, la séquence vidéo candidate en tête de liste n'étant pas nécessairement celle qui présente la meilleure qualité visuelle. Il est donc nécessaire de développer une nouvelle méthode permettant de sélectionner automatiquement la vidéo ayant la plus haute qualité dans la liste des candidats.Nous proposons de sélectionner le meilleur candidat en fonction de la qualité visuelle déterminée par un système d'apprentissage profond (DL). Considérant que la distorsion sera gérée sur chaque image, nous considérons l’évaluation de la qualité de l’image plutôt que l’évaluation de la qualité vidéo. Plus précisément, chaque candidat subit un traitement par une méthode d'évaluation de la qualité d'image (image quality assessment, IQA) sans référence basée sur l'apprentissage profond pour obtenir un score. Par la suite, le système sélectionne le candidat ayant le score IQA le plus élevé. Pour cela, notre système évalue la qualité des vidéos soumises à des erreurs de transmission sans éliminer les paquets perdus ni dissimuler les régions perdues. Les distorsions causées par les erreurs de transmission diffèrent de celles prises en compte par les mesures de qualité visuelle traditionnelles, qui traitent généralement des distorsions globales et uniformes de l'image. Ainsi, ces métriques ne parviennent pas à distinguer la version corrigée des différentes versions vidéo corrompues. Notre approche revisite et optimise la technique de décodage de liste classique en lui associant une architecture CNN d’abord, puis Transformer pour évaluer la qualité visuelle et identifier le meilleur candidat. Elle est sans précédent et offre d'excellentes performances. En particulier, nous montrons que lorsque les erreurs de transmission se produisent dans une trame intra, nos architectures basées sur CNN et Transformer atteignent une précision de décision de 100%. Pour les erreurs dans une image inter, la précision est de 93% et 95%, respectivement.