Thèse en cours

Compréhension de la scène 3D non supervisée à partir d'images
FR  |  
EN
Auteur / Autrice : Anh quan Cao
Direction : Raoul De charette
Type : Projet de thèse
Discipline(s) : Informatique temps réel, robotique et automatique - Paris
Date : Inscription en doctorat le 01/03/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique
Partenaire(s) de recherche : Laboratoire : Mathématiques et Systèmes
Equipe de recherche : CAOR - Centre de CAO et Robotique
établissement opérateur d'inscription : Mines Paris-PSL

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Motivation et contexte Les données 2D et 3D sont deux modalités différentes, et si la première est aujourd'hui facile et bon marché à obtenir, la seconde est intrinsèquement plus riche mais nécessite des appareils plus sophistiqués. Bien que l'homme ait la capacité de déduire des informations 3D à partir d'images, il est encore difficile pour les ordinateurs de le faire et cela se fait souvent au prix de multiples configurations de capteurs fournissant des données redondantes sur les scènes. Pourtant, le raisonnement en 3D permet une compréhension fine de l'espace et il sera bénéfique pour diverses applications de vision par ordinateur (réalité virtuelle/augmentée, algorithmes intelligents, etc.) et même crucial pour les robots qui évoluent finalement dans un monde tridimensionnel. Récemment, de nombreux travaux ont démontré la capacité à déduire une compréhension partielle de la 3D, comme la position 3/6-DOF [40], le SLAM, la sémantique 3D [38,39], etc. à partir d'images 2D, mais cela s'est fait au prix de l'utilisation de bases de données annotées coûteuses ou de capteurs multiples pour l'autosurveillance. Dans ce doctorat, nous proposons d'étudier la capacité à déduire une compréhension 3D complète d'une scène à partir d'une ou plusieurs images de manière non supervisée (ou autosurveillée). Ainsi, nous réduisons simultanément la limitation de l'apprentissage supervisé et de la détection 2D. En bref, cette thèse vise à répondre à la question suivante : Peut-on déduire une représentation 3D complète de scènes complexes à partir d'une ou plusieurs images ? La thèse sera financée dans le cadre du projet français AMI SAMBA qui inclut l'Inria et d'autres partenaires. Le candidat travaillera dans l'équipe RITS (Inria, Paris) sous la supervision de Raoul de Charette. Contexte Les récentes avancées dans les méthodes d'apprentissage approfondi de la 3D ont favorisé le développement de la vision 3D par ordinateur. Parmi elles, la reconstruction en 3D à partir d'images a beaucoup attiré les chercheurs du monde entier. Le problème le plus populaire dans ce domaine est celui de la reconstruction d'un objet unique, où une image d'un objet unique est utilisée pour estimer sa structure géométrique en 3D [1, 2, 4, 5, 6, 24, 25, 26, 27, 29, 30, 31, 32, 33, 34, 35, 36], parmi lesquels la plupart des travaux utilisent la méthode Shape from Template (SfT) où le modèle 3D est connu a priori. Ces travaux se concentrent principalement sur des images synthétiques ou de simples images du monde réel [25]. Il existe de nombreuses questions non résolues pour ce problème de reconstruction d'un objet unique, comme par exemple comment apprendre avec précision les propriétés matérielles des objets, comment produire un modèle haute résolution et comment estimer la dynamique de l'objet. Un autre problème difficile est la reconstruction de plusieurs objets à partir d'une seule image. Im2cad [7] aborde ce problème avec SfT de manière à détecter et à optimiser les objets. Cependant, cette méthode ne reconstruit que la pose des objets, pas leur forme. 3D-RCNN [8] utilise le rendu et la comparaison pour ajuster une base de forme linéaire simple à chaque objet détecté dans l'image, comme dans [40]. Mesh R-CNN [9] prédit un maillage 3D pour chaque objet d'avant-plan. Cependant, toutes ces méthodes reconstruisent les objets indépendamment, ce qui signifie qu'elles ne peuvent pas résoudre l'ambiguïté de la profondeur, l'interaction entre les objets et l'exclusion de l'espace - il n'y a pas de chevauchement entre les objets. Une méthode récente appelée Total3DUunderstanding [10] traite l'ensemble du problème en utilisant un système lourd comportant de nombreux modules. CoReNet [16] a proposé un modèle simple et une représentation hybride en volume du voxel et de la fonction implicite qui peuvent générer correctement des parties occultées des objets à partir de simples images synthétiques. C-flow [17] formule le problème de reconstruction 3D comme un problème génératif. Pour chaque image, une représentation latente est apprise par un modèle d'écoulement, qui est utilisé pour générer le nuage de points 3D en utilisant le modèle d'écoulement inverse. Grâce à la représentation apprise, un nouvel objet peut être généré en modifiant ou en interpolant la représentation latente. D'autres travaux connexes sont : l'estimation de la disposition de la scène [11], la complétion de la scène à partir de la carte de profondeur [12, 13], l'estimation de la profondeur et de la normale à partir d'une seule image [14, 15], et le moteur de rendu neuronal [18, 19, 20, 21, 23]. Cependant, aucune des méthodes actuelles ne permet de reconstituer entièrement une scène complexe du monde réel comme celle des scènes urbaines extérieures. Sujet du doctorat Contrairement à la littérature, nous aimerions développer une méthode qui résout les problèmes suivants à partir d'une ou plusieurs images en 2D : Estimer la géométrie 3D des éléments visibles de la scène, Inférer (ou halluciner) les régions occultées de la scène, Capturez l'interaction physique des éléments de la scène, Saisir les propriétés d'interaction de la lumière (BRDF, matériau, etc.), Travailler sur des scènes extérieures complexes à grande échelle comme celles de la conduite urbaine. Le sujet du doctorat comprendra plusieurs phases de complexité croissante, d'abord l'étude de la littérature et l'estimation de scènes 3D supervisées, puis l'estimation de scènes 3D semi-supervisées, y compris les occlusions d'auto/scène complexes, et enfin la proposition d'une compréhension de scènes 3D non supervisées pour des scènes complexes à grande échelle. Dans la première partie du doctorat, le candidat étudiera la littérature et fournira des indications sur la représentation de la géométrie de sortie attendue. Plus précisément, si la représentation 3D idéale doit être continue et d'une manière ou d'une autre paramétrée, cela semble complexe à réaliser. Cependant, de nombreuses représentations pratiques coexistent, telles que les grilles de voxels [22,24], les fonctions implicites [2, 27, 29, 34, 36, 37], le champ de radiance [34, 35], les nuages de points [25], etc. Cette phase comporte deux défis : trouver un espace intégré pour les données 2D / 3D, et trouver une architecture de réseau qui permette la transformation d'un espace 2D fini (image) en un espace 3D illimité (monde). Une solution possible serait d'utiliser des réseaux de convolution clairsemés [41] pour surmonter l'utilisation exponentielle de la mémoire en évitant la dilatation multiple dans le processus de convolution, ce qui est particulièrement utile pour les données de type voxel. Bien que de tels réseaux soient rares par nature, une extension intéressante pour notre recherche est le travail de Dai et al. 3 qui utilise un encodage rare et des décodeurs partiellement denses pour reconstruire la scène entière. Une autre direction est d'utiliser la levée de caractéristiques 2D-3D pour l'apprentissage d'un espace 3D intégré, dans la lignée des travaux précédents de l'équipe [39]. Dans cette première phase, le candidat fera des recherches sur la compréhension des scènes 3D de manière supervisée (ou semi-supervisée), en s'appuyant sur des bases de données récentes (nuScenes, CADC, Waymo, etc.). Dans la deuxième phase, le candidat étendra son travail initial au très difficile problème des occlusions. Plus précisément, si les images sont dépendantes du point de vue, la compréhension ultime de la scène 3D ne l'est pas. Le plus remarquable est que tous les capteurs (y compris la caméra ou le lidar) souffrent de l'auto-occlusion des éléments de la scène (c'est-à-dire que, quelle que soit la configuration, une forme 3D ne peut pas être entièrement détectée à partir d'un seul point de détection) et très souvent de l'occlusion de la scène également (c'est-à-dire qu'un objet peut occlure un autre élément de la scène). Dans cette phase, nous chercherons une solution à ce problème qui soit assez proche des autres finitions de scènes réalisées par l'équipe [22], bien qu'ici nous utiliserons des images en 2D qui sont beaucoup plus complexes. Nous étendrons également le travail pour utiliser moins de supervision, dans le but d'atteindre des techniques totalement non supervisées. Dans la troisième phase, le candidat abordera le problème dans sa globalité et travaillera à une compréhension 3D totalement non supervisée de scènes complexes, en s'appuyant uniquement - ou principalement - sur des données d'images 2D. Dans cette partie du travail, nous étendrons les travaux initiaux et les évaluerons dans un large éventail de contextes, y compris des scènes d'extérieur, des scènes d'intérieur, etc. Si le temps le permet, les travaux seront étendus à des conditions d'éclairage et météorologiques complexes qui sont intrinsèquement difficiles à superviser en raison des limitations des capteurs et qui provoquent des défaillances importantes des algorithmes [42]. [1] Park, J-J. et al. “DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation.” CVPR 2019. [2] Genova, K. et al. “Learning Shape Templates With Structured Implicit Functions.” ICCV 2019. [3] Dai, A. et al. “SG-NN: Sparse Generative Neural Networks for Self-Supervised Scene Completion of RGB-D Scans.” CVPR 2020. [4] Wang, N. et al. “Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images.” ECCV 2018. [5] Rajeswar, S. et al. “Pix2Shape: Towards Unsupervised Learning of 3D Scenes from Images Using a View-Based Representation.” IJCV 2020. [6] Wu, J. et al. “Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling.” NeurIPS 2016. [7] Izadinia, H. et al. “IM 2 CAD.” CVPR 2017. [8] Kundu, A. et al., '3D-RCNN: Instance-Level 3D Object Reconstruction via Render-and-Compare,' CVPR 2018. [9] Gkioxari, G. et al. “Mesh R-CNN.” ICCV 2019. [10] Nie, Y. et al. “Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes From a Single Image.” CVPR 2020. [11] Zou, C. et al. “LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image.” CVPR 2018. [12] Song, S. et al. “Semantic Scene Completion from a Single Depth Image.” CVPR 2017. [13] Guo, Y-X. et al. 'View-Volume Network for Semantic Scene Completion from a Single Depth Image.” ArXiv 2018 [14] Chang, J. et al. 'Deep Optics for Monocular Depth Estimation and 3D Object Detection.” ICCV 2019. [15] Qi, X. et al. “GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation”. CVPR 2018. [16] Popov, S. et al. “CoReNet: Coherent 3D scene reconstruction from a single RGB image.” ArXiv 2020. [17] Pumarola, A. et al. “C-Flow: Conditional Generative Flow Models for Images and 3D Point Clouds.” CVPR 2020. [18] Rematas, K. et al. 'Neural Voxel Renderer: Learning an Accurate and Controllable Rendering Tool.” CVPR 2020. [19] Nguyen-Phuoc, T. et al. “RenderNet: A deep convolutional network for differentiable rendering from 3D shapes.” NeurIPS 2018. [20] Oechsle, M. et al. “Texture Fields: Learning Texture Representations in Function Space.” ICCV 2019. [21] Sitzmann, V. et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings.” 2019 CVPR. [22] Roldao, L. et al. “LMSCNet: Lightweight Multiscale 3D Semantic Completion.” 3DV 2020. [23] Tewari, A. et al. “State of the Art on Neural Rendering.” Computer Graphics Forum 2020. [24] Maturana, D. et al. 'VoxNet: A 3D Convolutional Neural Network for real-time object recognition.” IROS 2015. [25] Fan, H. et al. “A Point Set Generation Network for 3D Object Reconstruction from a Single Image.” CVPR 2017. [26] Groueix, T. et al. “A Papier-Mache Approach to Learning 3D Surface Generation.” CVPR 2018. [27] Mescheder, L. M. et al. “Occupancy Networks: Learning 3D Reconstruction in Function Space.” CVPR 2019. [28] Xie, S. et al. “PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding.” ECCV 2020. [29] Chen, Z. et al. 'Learning Implicit Fields for Generative Shape Modeling.” CVPR 2019. [30] Oechsle, M. et al. “Learning Implicit Surface Light Fields.” ArXiv 2020 [31] Niemeyer, M. et al. 'Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics”. ICCV 2019 [32] Niemeyer, M. et al. “Differentiable Volumetric Rendering: Learning Implicit 3D Representations Without 3D Supervision.” CVPR 2020. [33] Yariv, L., “Multiview Neural Surface Reconstruction with Implicit Lighting and Material”, NeurIPS 2020. [34] Mildenhall, B. et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.” ECCV 2020. [35] Schwarz, K. et al. “GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis.” ArXiv 2020. [36] Peng, S. et al. “Convolutional Occupancy Networks.” ECCV 2020. [37] Tancik, M. et al. “Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains.” NeurIPS 2020. [38] Jaritz, M., et al. 'Sparse and dense data with cnns: Depth completion and semantic segmentation.' 3DV 2018. [39] Jaritz, M., et al. 'xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation.' CVPR 2020. [40] Dubeau, E., et al. 'RGB-DE: Event Camera Calibration for Fast 6-DOF Object Tracking.' ISMAR 2020. [41] Graham, B. et al. '3d semantic segmentation with submanifold sparse convolutional networks.' CVPR 2018. [42] Tremblay, M., et al. 'Rain rendering for evaluating and improving robustness to bad weather.' IJCV 2020.