3D scene reconstruction from images - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2022

3D scene reconstruction from images

Reconstruction de scènes 3D à partir d'images

Michaël Ramamonjisoa
  • Fonction : Auteur
  • PersonId : 1233836
  • IdRef : 26827522X

Résumé

Images captured by cameras have become ubiquitous. Being able to reconstruct 3D scenes only using these images would be a highly desirable capability. However, this is very challenging, as images are 2D snapshots of the world, therefore generating ambiguities when lifting them from 2D back to 3D. In this thesis, we focus on two methods for 3D scene reconstruction: single-image depth estimation, and primitive decomposition.Single-image depth estimation (SIDE) refers to the ability to reconstruct the visible 3D surface of a scene given only a single image as input. This is an ill-posed problem, since many 3D scenes can explain the observed image. In order to solve this problem, modern works rely on data-driven methods and are mainly deep-learning based. These methods therefore use large training datasets of RGB-D pairs, i.e. aligned color and depth images, along with deep neural networks, in order to learn a good prior to predict depth from a single image.Primitive decompositions can be used to represent a scene as an arrangement of elementary shapes. In the 1960s, Lawrence G. Roberts proposed to represent the 3D world as an arrangement of cuboids. This representation is particularly useful for its simplicity and compactness, which downstream applications such as robotics could leverage.The first contribution of this thesis introduces a solution to a notorious problem in single-image depth estimation; most methods suffer from smooth edges around occlusion boundaries, while they are supposed to be sharp. Our method, called SharpNet, introduces geometric constraints with synthetic data during training in order to predict sharp depth maps, guided by occlusion boundaries and surface normals.Our second contribution extends our pursuit of sharper depth edges in SIDE. Neural networks are notoriously biased towards low frequencies, implying that sharp edges, which correspond to high frequency details, will often be overlooked by deep-learning based methods. In this work we introduce a new depth refinement method that sharpens predicted depth maps, and that is able to estimate crisp high frequency details. This method predicts displacement fields, which are used to sharpen depth edges by moving pixels in 2D space. When put on top of baseline single-image depth estimation methods, our method consistently improves the sharpness of depth maps without sacrificing their accuracy.Our third contribution also aims to improve existing SIDE methods with a simple extension. Most of these previous work rely on U-shaped Encoder-Decoder architectures, often referred to as UNets. While our two first contributions focus on accuracy along occlusion boundaries, this third contribution focuses on efficiency. These occlusion boundaries are indeed usually sparse in natural scenes, which creates an imbalance that results in smooth predicted depth edges. In WaveletMonoDepth, we instead take advantage of this sparsity. Because depth edges are sparse, we can compute convolutions only in places with large depth variations i.e. occlusion boundaries. Using wavelet decomposition as an intermediate representation for depth maps, we obtain large gains in efficiency while suffering only a minimal loss in accuracy.Our final contribution explores primitive decompositions as a representation for 3D scenes. RGB-D cameras can be used to scan scenes and store them as 3D point clouds. However, this process is often noisy, and 3D point clouds are expensive to store. With MonteBoxFinder, we propose to represent noisy 3D point clouds with 3D cuboids, by first detecting many 3D cuboids candidates, then finding an arrangement that best fits the scene. This search problem is highly combinatorial, and an exhaustive search is often prohibitive. MonteBoxFinder therefore draws inspiration from Monte Carlo Tree Search methods, in order to efficiently find a good set of cuboids. These cuboids can then be used as ground truth to train single-image cuboid decomposition method.
Les images sont aujourd'hui omniprésentes. Pouvoir reconstruire des scènes en 3D à partir d'images est un important défi. Cependant, les images sont une projection en 2D du monde, rendant ambigüe la projection inverse vers la 3D. Dans cette thèse, nous nous intéressons principalement à deux méthodes de reconstruction 3D: l'estimation de profondeur à partir d'une seule image, et la décomposition en primitives.L'estimation monoculaire de profondeur (SIDE) définit la capacité à reconstruire la surface 3D visible d'une scène étant donnée une seule image entrée. Ce problème est ambigü, étant donné que plusieurs scènes 3D peuvent produire la même image. Les travaux récents utilisent reposent alors sur des méthodes orientées-données, et principalement des méthodes de d'apprentissage profond, utilisant de grands jeux de données composés de paires d'images couleur et de carte de profondeur, ainsi que des réseaux de neurones profonds afin d'apprendre un bon à-priori pour la prédiction monoculaire.Les décompositions en primitives peuvent être utilisées pour représenter une scène comme un arrangement de formes élementaires. Dans les années 60, Lawrence G. Roberts propose de décrire le monde comme un arrangement de cuboïdes. Cette représentation est simple et compacte, ce qui peut s'avérer utile pour des applications comme la robotique.En première contribution de cette thèse, nous proposons une solution à un problème récurrent en SIDE: la plupart des méthodes produisent des contours d'occultation flous, alors que ceux-cis devraient être nets. Notre méthode SharpNet introduit des contraintes géométriques ainsi que l'utilisation de données synthétiques pour prédire des cartes de profondeur plus nettes.Notre deuxième contribution poursuit notre quête de netteté pour les contours d'occultation. Les réseaux de neurones sont connus pour être biaisés vers les basses fréquences, ce qui explique que les contours, étant des détails à haute fréquence, sont souvent ignorés par les méthodes utilisant l'apprentissage profond. Notre nouvelle méthode de correction de carte de profondeur permet d'estimer des cartes plus nettes. Nous prédisons des champs de déplacements afin de déplacer les pixels dans ces cartes. Cette méthode génère des contours nets, sans sacrifier la précision des méthodes qu'elle corrige.Notre troisième contribution est aussi une simple extension améliorative des méthodes de SIDE. La plupart de ces méthodes utilisent une architecture de type UNet. Alors que les deux premières contributions améliorent la précision des méthodes de SIDE autour des contours d'occultation, cette troisième améliore leur efficacité. Ces contours étant généralement parcimonieux, cela génère un déséquilibre qui résulte le plus souvent en des contours de profondeur flous. Avec WaveletMonoDepth, nous utilisons cette parcimonie à notre avantage: nous pouvons alors calculer les convolutions uniquement dans les zones à forte variation de profondeur, principalement autour des contours d'occultation. La décomposition en ondelettes est utilisée comme représentation intermédiaire, et permet de générer de forts gains en efficacité, au prix d'une faible perte en précision.Notre dernière contribution explore la décomposition de scène en primitives 3D. Les caméras RGB-D peuvent être utilisées pour scanner des scènes et les stocker sous forme de nuages de points 3D. Cependant, ce procédé est souvent bruité, et couteux en stockage. Grâce à MonteBoxFinder, nous représentons ces nuages des points bruités sous forme d'arrangement de cuboïdes. Nous détectons d'abord un large nombre de cuboïdes, avant d'en extraire un arrangement qui représente convenablement la scène. Nous nous inspirons de l'algorithme Monte Carlo Tree Search pour résoudre ce problème combinatoire et obtenir de bonnes décompositions en cuboïdes. Les cuboïdes ainsi obtenus peuvent alors servir d'annotations pour entrainer des algorithmes de décomposition en cuboïdes à partir d'une image.
Fichier principal
Vignette du fichier
TH2022ENPC0041.pdf (91.86 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04013968 , version 1 (03-03-2023)

Identifiants

  • HAL Id : tel-04013968 , version 1

Citer

Michaël Ramamonjisoa. 3D scene reconstruction from images. Image Processing [eess.IV]. École des Ponts ParisTech, 2022. English. ⟨NNT : 2022ENPC0041⟩. ⟨tel-04013968⟩
80 Consultations
5 Téléchargements

Partager

Gmail Facebook X LinkedIn More