Inférer une représentation dense de l'humain avec un nuage de points épars ou incomplet
Auteur / Autrice : | Boyao Zhou |
Direction : | Edmond Boyer, Jean-Sébastien Franco |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 22/11/2022 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble) |
Jury : | Président / Présidente : Rémi Ronfard |
Examinateurs / Examinatrices : Guillaume Lavoué, Sergi Pujades Rocamora | |
Rapporteurs / Rapporteuses : Mathieu Aubry, Tony Tung |
Mots clés
Mots clés contrôlés
Résumé
Avec le développement de techniques de vision 3D, en particulier des méthodes basées sur les réseaux neuronaux, la représentation de l’avatar neuronal 3D a suscité un intérêt croissant à la fois dans l’académie et dans l’industrie. Une telle représentation numérique a été appliquée aux environnements du cinéma, du jeu vidéo, de la mode et de la réalité virtuelle pour enrichir l’expérience utilisateur. En termes de représentation et de reconstruction 3D, les méthodes classiques reposent sur une mise en place lourde et des processus de calcul coûteux tandis que les réseaux neuronaux ouvrent la possibilité de traiter ce problème à partir d’observations partielles grâce à une meilleure tolérance aux informations insuffisantes. En particulier, les réseaux neuronaux obtiennent des résultats prometteurs pour les tâches de reconstruction avec un processus d’inférence à grande vitesse. Cependant, au moment de la thèse la contrainte spatiale sur la forme humaine et la cohérence temporelle du mouvement est peu ou pas prise en compte dans la conception des réseaux neuronaux pour la reconstruction dense et la complétion. Cette thèse propose de construire des méthodes 3D et 4D pour l’estimation/reconstruction de formes humaines à partir de nuages de points épars ou incomplets et étudie comment le réseau proposé et la stratégie d’apprentissage contribuent. Pour évaluer l’efficacité des méthodes proposées, nous collectons des données à partir d’un jeu de données synthétiques et réelles, avec des humains habillés et des humains sans vêtements. Nous examinons d’abord une tâche intermédiaire statique, dans laquelle nous déformons les points clés de la référence(template) pour épouser la forme des nuages de points épars d’entrée et densifions les points déformés avec notre couche de processus gaussien proposée. Notre couche de processus gaussien renforce le lissage de la géométrie 3D et l’apprentissage adversarial peut encore améliorer la robustesse sur les ensembles de données, qui nous permettent de reconstruire des formes humaines 3D à partir de nuages de points épars non structurés et éviter les optimums locaux pendant l’inférence. Au lieu de poses statiques image par image, les humains effectuent des mouvements dynamiques dans la vie quotidienne. Donc nous examinons la continuité temporelle dans l’inférence de forme dense. Nous développons une représentation continue des séquences de mouvements humains à partir d’observations partielles avec modélisation neuronale implicite, qui permet de compléter l’information spatiale et d’augmenter la fréquence des séquences d’entrée. Notre méthode proposée surpasse les méthodes statiques qui manquent de cohérence temporelle en corrigeant les artefacts provoqués par des données manquantes ou bruitées. Mais il nous manque encore des détails à haute fréquence dans nos résultats avec une stratégie d’entraînement naïve. Par conséquent, nous étudions comment représenter les détails fins de l’humain avec une stratégie hiérarchique et l’agrégation des caractéristiques temporelles à partir d’une séquence d’entrée des images de profondeur. Cela nous permet d’apprendre de manière pyramidale le champ de distances signées dans les directions spatiale et temporelle afin de récupérer des détails fins sur les plis des vêtements et les expressions faciales.