Thèse soutenue

Méthodes d'apprentissage profond pour la détection d'Action Unit

FR  |  
EN
Auteur / Autrice : Gauthier Tallec
Direction : Kevin BaillyArnaud Dapogny
Type : Thèse de doctorat
Discipline(s) : Automatique et robotique
Date : Soutenance le 03/07/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mécaniques, acoustique, électronique et robotique de Paris (2000-....)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Matthieu Cord
Examinateurs / Examinatrices : Stéphane Canu, Antitza Dantcheva
Rapporteurs / Rapporteuses : Mohamed Daoudi, David Picard

Résumé

FR  |  
EN

La détection d'Action Unit (AU) consiste à décrire automatiquement les expressions faciales par les activations musculaires qu'elles impliquent. L'intérêt est de fournir une représentation bas niveau qui peut ensuite aider l'apprentissage de tâches d'analyse faciale de plus haut niveau. Cependant, c'est un problème difficile. En effet, les bases de données disponibles ne présentent pas une grande variété de sujets et contiennent beaucoup plus d'images de visages neutres que de visages expressifs. De plus, les AU sont des mouvements subtils du visage et sont donc difficiles à annoter. Ainsi, on dispose de peu de données et certaines des annotations sont susceptibles d'être fausses. Par conséquent, il est peu probable qu'un réseau entraîné sur ces bases de données soit capable de généraliser efficacement. Dans cette thèse, on explore trois pistes pour améliorer les performances de généralisation des détecteurs d'AU. Premièrement, on cherche à exploiter les dépendances entre les AU pour structurer les prédictions du réseau. Pour ce faire, on utilise des réseaux de neurones récurrents multi-tâches qui traitent les tâches séquentiellement et aident la prédiction de chaque tâche en utilisant les résultats précédents. Cependant, ces méthodes nécessitent d'imposer un ordre sur un ensemble de tâches qui n'a pas d'ordre naturel. Le choix de cet ordre est important. En effet il a été montré qu'il pouvait impacter les performances du réseau. Pour sélectionner les ordres pertinents, on introduit les Multi-Order Networks (MONET) qui apprennent plusieurs tâches ainsi que l'ordre dans lequel elles doivent être prédites. Dans un premier temps, on montre que MONET est capable d'apprendre l'ordre de prédiction optimal dans un environnement contrôlé. Dans un second temps, on montre que MONET surpasse les architectures multi-tâches de base sur plusieurs problèmes de détection d'attributs avec différents types de dépendances entre les tâches. Finalement, on démontre que MONET dépasse les performances de l'état de l'art en détection d'AU sur DISFA et BP4D. Dans un deuxième temps, on part de l'observation selon laquelle chaque AU modifie une région connue du visage. On tente donc de guider notre détecteur pour qu'il prête attention aux zones pertinentes pour chaque AU. Pour cela, on s'inspire du succès des transformeurs pour la vision. Concrètement, on évalue plusieurs stratégies de guidage de l'attention multi-tête des transformeurs en utilisant soit des points de repères, soit des cartes de ségmentation du visage. Le résultat de cette étude est que, quelle que soit la nature de l'a priori, forcer les différentes têtes d'un transformeur à prêter attention à des zones différentes permet d'améliorer les performances d'un détécteur d'AU sur BP4D et DISFA. Enfin, on aborde le problème du bruit dans les annotations d'AU. Pour cela, on utilise d'abord une stratégie de type label smoothing pour réduire la confiance du réseau et ainsi atténuer l'influence des exemples bruités. Cependant, on constate que le label smoothing nuit aux performances de détection. Pour expliquer cette baisse, on suppose que l'application du label smoothing dans des scénarios déséquilibrés aggrave le manque de confiance dans la classe minoritaire. Pour contourner cela, on propose le Vanilla Asymetric Label Smoothing (VALS) qui utilise des coefficients de lissage distincts pour les exemples positifs et négatifs. VALS permet donc de réduire la surconfiance dans la classe majoritaire tout en laissant la classe minoritaire intact. On affine cette stratégie avec le Robin Hood Label Smoothing (RHLS) qui lisse uniquement la classe majoritaire avec un coefficient qui est ajusté en fonction des fréquences empiriques des AU. On montre que les performances de VALS et RHLS sont prometteuses sur BP4D et surpassent les résultats de l'état de l'art sur DISFA.