Thèse soutenue

Reconstruction de formes 3D à partir de plusieurs vues

FR  |  
EN
Auteur / Autrice : Pierre Zins
Direction : Stefanie WuhrerEdmond Boyer
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 25/04/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Equipe-projet Capture et analyses de formes en mouvement (Montbonnot, Isère ; 2011-....)
Jury : Président / Présidente : Florence Bertails
Examinateurs / Examinatrices : Jean-Sébastien Franco
Rapporteurs / Rapporteuses : Sylvie, Julie Chambon, Mohamed Daoudi

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les récents progrès technologiques d'un point de vue logiciel et matériel ont donné naissance à un besoin croissant de contenu 3D pouvant être utilisé dans plusieurs domaines. Dans cette thèse, nous nous concentrons sur la création de contenu 3D géométrique à partir de données d'images 2D multi-vues. Bien que du matériel spécialisé, tel que des capteurs de profondeur, puisse aider à capturer des données 3D, la stratégie dominante consiste à utiliser uniquement des images RGB en entrée. Des modèles 3D précis capturés à partir de données réelles sont utiles dans une grande variété de domaines tels que l'industrie du divertissement pour les films ou jeux vidéo, le patrimoine culturel pour la préservation d'éléments fragiles, la santé pour le diagnostique ou les simulations chirurgicales et la réalité virtuelle et augmentée pour offrir des expériences immersives et réalistes. Ainsi, la tâche de reconstruction peut prendre place dans différents contextes en fonction de la taille du contenu 3D aini que du nombre d'images considérées en entrée. Dans cette thèse, nous explorons et contribuons sur deux scénarios distincts.Tout d'abord, nous explorons la reconstruction 3D complète d'humains et de leur vêtements à partir d'un nombre limité de vues. Ce scénario est particulièrement intéressant puisque l'humain est au centre d'une grande majorité d'applications et qu'un nombre limité de vues facilite la mise en place d'une méthode avec une configuration de capture simplifiée. Cependant, dans un tel contexte le problème devient difficile et mal posé car les informations photométriques redondantes parmi les images d'entrée ne peuvent pas être exploitées seules pour déduire un modèle 3D complet. Dans ce contexte, nous améliorons l'état de l'art avec une nouvelle méthode basée sur un apprentissage et construite sur une représentation neuronale implicite qui propose des reconstructions 3D précises et spatialement cohérentes d'humains à partir de seulement quelques vues éparses en entrée. Nous démontrons dans nos expériences une précision de reconstruction supérieure à celle des méthodes existantes, et même une bonne capacité de généralisation aux données réelles. Malgré ces résultats impressionnants, la reconstruction de modèles complets et précis à partir d'un nombre limité de vues reste très difficile et les méthodes qui utilisent plus de vues d'entrée sont toujours très pertinentes.Nous considérons donc dans une seconde contribution un tel contexte comportant des points de vue d'entrée denses. Dans ce cas, la redondance photométrique est exploitée pour estimer la position de la surface et les principaux défis concernent la représentation 3D qui doit permettre de capturer des détails 3D fins et la correspondance d'apparence dans différentes vues qui peut être difficile en raison de surfaces non-Lambertiennes, du bruit des caméras ou de problèmes de visibilité. En particulier, nous apportons une nouvelle stratégie efficace qui combine les avantages des méthodes de stéréopsie multi-vues (MVS) qui peuvent donner une précision géométrique au niveau du pixel avec des prédictions de profondeur locales le long des lignes de vue et l'intégration volumétrique utilisée dans les récentes méthodes de reconstruction basées sur le rendu différentiable. Dans nos expériences, nous démontrons des estimations de surface plus précises et une bonne capacité de généralisation de la méthode.Enfin, dans une troisième contribution, nous tirons profit des deux premières contributions et étudions comment incorporer des contraintes multi-vues dans la méthode de reconstruction basée sur un apprentissage que nous avons développée. En particulier, cela est possible lorsque les images d'entrée partagent une certaine redondance et permet d'améliorer la capacité de généralisation de la méthode, le niveau de détails qui peut être capturé et offre la possibilité d'utiliser des images de plus haute résolution comme entrée.