Deep Face Analysis for Aesthetic Augmented Reality Applications

Yongzhe Yan

Résumé

Precise and robust facial component detection is of great importance for the good user experience in aesthetic augmented reality applications such as virtual make-up and virtual hair dying. In this context, this thesis addresses the problem of facial component detection via facial landmark detection and face parsing. The scope of this thesis is limited to deep learning-based models.The first part of this thesis addresses the problem of facial landmark detection. In this direction, we propose three contributions. For the first contribution, we aim at improving the precision of the detection. To improve the precision to pixel-level, we propose a coarse-to-fine framework which leverages the detail information on the low-level feature maps. We train different stages with different loss functions, among which we propose a boundary-aware loss that forces the predicted landmarks to stay on the boundary. For the second contribution in facial landmark detection, we improve the robustness of facial landmark detection. We propose 2D Wasserstein loss to integrate additional geometric information during training. Moreover, we propose several modifications to the conventional evaluation metrics for model robustness.To provide a new perspective for facial landmark detection, we present a third contribution on exploring a novel tool to illustrate the relationship between the facial landmarks. We study the Canonical Correlation Analysis (CCA) of the landmark coordinates. Two applications are introduced based on this tool: (1) the interpretation of different facial landmark detection models (2) a novel weakly-supervised learning method that allows to considerably reduce the manual effort for dense landmark annotation.The second part of this thesis tackles the problem of face parsing. We present two contributions in this part. For the first contribution, we present a framework for hair segmentation with a shape prior to enhance the robustness against the cluttered background. Additionally, we propose a spatial attention module attached to this framework, to improve the output of the hair boundary. For the second contribution in this part, we present a fast face parsing framework for mobile phones, which leverages temporal consistency to yield a more robust output mask. The implementation of this framework runs in real-time on an iPhone X.

La détection précise et robuste des composants faciaux est d’une grande importance pour la bonne expérience utilisateur dans les applications de réalité augmentée à destination de l’industrie esthétique telles que le maquillage virtuel et la coloration virtuelle des cheveux. Dans ce contexte, cette thèse aborde le problème de la détection des composants faciaux via la détection des repères faciaux et la segmentation des composantes faciales. Cette thèse se concentre sur les modèles basés sur l’apprentissage profond.La première partie de cette thèse aborde le problème de la détection des repères faciaux. Nous proposons trois contributions. Pour la première contribution de cette partie, nous visons à améliorer la précision de la détection. Afin d’améliorer la précision au niveau des pixels, nous proposons un framework grossier à fin qui exploite les informations détaillées sur les feature maps de bas niveau dans le modèle. Nous formons différentes étapes avec différentes fonctions de coût, parmi lesquelles nous proposons une fonction sensible aux contours qui force les points de repère estimés à rester sur le contour de composants faciaux. Dans la deuxième contribution de cette partie, nous améliorons la robustesse de la détection des repères faciaux. Nous proposons une fonction de coût, basée sur la distance Wasserstein, pour intégrer des informations géométriques supplémentaires lors de l’apprentissage. De plus, nous proposons plusieurs modifications aux métriques d’évaluation conventionnelles pour mieux appréhender la robustesse du modèle.Pour fournir une nouvelle perspective sur la détection des repères faciaux, nous présentons une troisième contribution sur l’exploration d’un nouvel outil pour illustrer la relation entre les repères faciaux. Nous étudions l’analyse canonique de corrélation (CCA) des coordonnées du point de repère. Deux applications sont introduites avec cet outil: (1) l’interprétation de différents modèles pour la détection de points de repère (2) une nouvelle méthode d’apprentissage faiblement supervisé qui permet de réduire considérablement l’effort manuel pour l’annotation dense de points de repère.La deuxième partie de cette thèse aborde le problème de la segmentation des composantes faciales. Nous proposons deux contributions. Dans la première contribution dans cette partie, nous présentons un framework pour la segmentation des cheveux, afin d’améliorer la robustesse sur les arrière-plans complexes. De plus, un module d’attention spatiale est attaché à ce framework pour améliorer les résultats sur le contour des cheveux. Dans la deuxième contribution de cette partie, nous présentons un framework rapide de segmentation des composantes faciales pour les téléphones mobiles, qui utilise la cohérence temporelle pour produire un masque de sortie plus robuste. L’implémentation de ce framework s’exécute en temps réel sur un iPhone X.

Deep Face Analysis for Aesthetic Augmented Reality Applications

Analyse du visage pour les applications de réalité augmentée esthétique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager