Thèse soutenue

Synthèse d'images basée sur le GAN et application à la reconnaissance des visages

FR  |  
EN
Auteur / Autrice : Xiangnan Yin
Direction : Liming Chen
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/06/2022
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École Centrale de Lyon (1857-....)
Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône)
Jury : Président / Présidente : Alice Caplier
Examinateurs / Examinatrices : Liming Chen, Stéphane Gentric, Di Huang, Antitza Dantcheva
Rapporteurs / Rapporteuses : Boulbaba Ben Amor, Sébastien Marcel

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Récemment, avec le développement des "Convolutional Neural Networks"(CNNs) et des ensembles de données à grande échelle, la reconnaissance des visages (RF) a fait des progrès remarquables. Cependant, la reconnaissance de visages dans de grandes poses et sous forte occlusion reste un défi vital en raison du déséquilibre des données d’entraînement. Grâce aux "Generative Adversarial Networks" (GANs), il est possible de synthétiser des visages multi-vues photoréalistes et de dévoiler les images de visages fortement occlus, ce qui facilite considérablement la RF et offre un large éventail d’applications dans les domaines du divertissement et de l’art. Cette thèse fournit une étude approfondie de la synthèse d’images de visages basée sur les GAN et de son application à la RF. Les méthodes actuelles de synthèse d’images faciales présentent deux axes de recherche principaux, à savoir les méthodes basées sur la 2D et celles basées sur la reconstruction 3D. Nos travaux couvrent les deux. Pour l’édition de la pose du visage en 2D, les méthodes actuelles se concentrent principalement sur la modélisation de la capacité de préservation de l’identité mais sont moins capables de préserver correctement le style de l’image, qui fait référence à la couleur, la luminosité, la saturation, etc. Cette thèse propose une nouvelle approche en deux étapes pour résoudre le problème d’incohérence de style, où la manipulation de la pose du visage est divisée en échantillonnage de pixels et en peinture du visage. Avec des pixels échantillonnés directement à partir de l’image d’entrée, le résultat de l’édition du visage conserve fidèlement l’identité et le style de l’image. Pour la reconstruction traditionnelle de visages en 3D, en raison de la nature linéaire et basse dimensionnelle du modèle morphable 3D (3DMM), les textures reconstruites capturent à peine les détails à haute fréquence, ce qui donne des textures floues qui sont loin d’être satisfaisantes. Certaines méthodes récentes de reconstruction de visages en 3D ont également exploité l’entraînement contradictoire pour améliorer la qualité de la texture. Cependant, ces méthodes s’appuient soit sur des données de visage 3D rares et non publiques, soit sur une approche d’optimisation complexe et coûteuse. Cette thèse propose une méthode de génération de texture haute-fidélité, qui prédit la texture globale du visage 3D à partir d’une seule image de visage en entrée. L’apprentissage est basé sur la pseudo vérité de terrain mélangée par le 3DMM et les textures du visage d’entrée. De multiples discriminateurs de cartes UV partielles sont utilisés pour gérer les artefacts imparfaits de la pseudo-vérité terrain. En termes de désocclusion de visage, nous proposons un GAN de désocclusion de visage basé sur segmentation et reconstruction, composé de trois parties, un module de régression des paramètres 3DMM N_, un module de segmentation des occlusions NS, et un module de génération d’images NG. Avec la texture préalable fournie par N_ et les parties occluses indiquées par NS, NG peut récupérer fidèlement les textures manquantes. La méthode proposée surpasse quantitativement et qualitativement les méthodes de l’état de l’art.