Représentations basées sur des points pour une nouvelle synthèse de vues
Auteur / Autrice : | Georgios Kopanas |
Direction : | George Drettakis |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 24/11/2023 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Frédo Durand |
Examinateurs / Examinatrices : George Drettakis, Frédo Durand, Christian Theobalt, Hendrik Lensch, Thomas Muller | |
Rapporteur / Rapporteuse : Christian Theobalt, Hendrik Lensch |
Mots clés
Résumé
L'objectif principal du rendu inverse est de récupérer des informations 3D à partir d'un ensemble d'observations 2D, généralement un ensemble d'images ou de vidéos. L'observation d'une scène 3D à partir de différents points de vue peut fournir de nombreuses informations sur la géométrie sous-jacente, les matériaux et les propriétés physiques des objets. L'accès à ces informations permet de nombreuses applications en aval. Dans cette thèse, nous nous concentrerons sur la navigation à partir de points de vue libres et sur la synthèse de nouvelles vues qui consiste à rendre, depuis des points de vue non observés, les scènes 3D capturées.Le domaine a pris un essor incroyable après l'invention des champs de rayonnement neuronaux (Neural Radiance Fields ou NeRF). Si les NeRFs permettent d'obtenir une qualité d'image exceptionnelle lors de la synthèse de nouvelles vues, ce n'est pas la seule raison pour laquelle ils ont suscité un fort engagement de la part de la communauté. Une autre propriété importante est la simplicité de l'optimisation: ils permettent de définir le problème de la reconstruction 3D comme un problème d'optimisation continue sur les paramètres d'une représentation de scène avec une fonction objectif photométrique simple.Dans cette thèse, nous conserverons ces deux avantages des NeRF, mais nous proposerons une nouvelle façon de représenter les champs de radiance qui non seulement permet d'obtenir des résultats de pointe en matière de qualité d'image, mais aussi un rendu en temps réel à plus de 100 images par seconde, une optimisation rapide avec une empreinte mémoire raisonnable et une intégration aisée dans les moteurs graphiques.Nous proposons une représentation à partir de points en explorant d'abord comment les points peuvent être utilisés dans un contexte de rendu traditionnel basé sur l'image pour effectuer de la rastérisation différentiable. Ensuite, nous utilisons les points pour traiter les objets courbes hautement réfléchissants, ce qui est sans doute l'un des cas les plus difficiles de la synthèse de nouvelles vues. Dans nos derniers travaux, nous montrons pour la première fois que les nuages de points, augmentés pour devenir des gaussiennes 3D, peuvent conserver les propriétés différentiables des NeRF, mais qu'ils parviennent également à récupérer des signaux à plus haute fréquence et à représenter l'espace vide de manière plus efficace. De plus, leur nature lagrangienne et le fait que, dans la méthode la plus récente, nous parvenons à nous passer de l'utilisation des réseaux de neurones nous permettent d'avoir une représentation explicite et interprétable de la géométrie et de l'apparence.Enfin, nous aborderons brièvement dans cette thèse deux autres sujets intéressants. Le premier sujet consiste à déterminer comment placer les caméras pour capturer efficacement une scène dans le but de la reconstruire en 3D. Dans des environnements complexes non centrés sur l'objet, nous fournissons une intuition théorique et pratique sur le type de placement des caméras qui permet une bonne reconstruction.Le deuxième sujet est motivé par le succès récent des modèles génératifs. Nous étudions comment utiliser des représentations basées sur des points avec des modèles de diffusion. Les méthodes actuelles imposent des limites extrêmement fortes au nombre de points. Dans A travers un travail préliminaire, nous proposons une architecture qui exploite les informations multi-vues comme outil pour décorréler le nombre de points de la vitesse et de la performance du modèle.Nous concluons cette thèse en réfléchissant sur le travail effectué tout au long de la thèse et en esquissant quelques directions intéressantes pour le travail futur.