Thèse soutenue

Reconstruction de scènes 3D à partir d'images

FR  |  
EN
Auteur / Autrice : Michaël Ramamonjisoa
Direction : Vincent Lepetit
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 22/11/2022
Etablissement(s) : Marne-la-vallée, ENPC
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009)
Jury : Président / Présidente : Janne Heikkilä
Examinateurs / Examinatrices : Vincent Lepetit, Raoul de Charette, Anelia Angelova, René Ranftl
Rapporteurs / Rapporteuses : Raoul de Charette

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les images sont aujourd'hui omniprésentes. Pouvoir reconstruire des scènes en 3D à partir d'images est un important défi. Cependant, les images sont une projection en 2D du monde, rendant ambigüe la projection inverse vers la 3D. Dans cette thèse, nous nous intéressons principalement à deux méthodes de reconstruction 3D: l'estimation de profondeur à partir d'une seule image, et la décomposition en primitives.L'estimation monoculaire de profondeur (SIDE) définit la capacité à reconstruire la surface 3D visible d'une scène étant donnée une seule image entrée. Ce problème est ambigü, étant donné que plusieurs scènes 3D peuvent produire la même image. Les travaux récents utilisent reposent alors sur des méthodes orientées-données, et principalement des méthodes de d'apprentissage profond, utilisant de grands jeux de données composés de paires d'images couleur et de carte de profondeur, ainsi que des réseaux de neurones profonds afin d'apprendre un bon à-priori pour la prédiction monoculaire.Les décompositions en primitives peuvent être utilisées pour représenter une scène comme un arrangement de formes élementaires. Dans les années 60, Lawrence G. Roberts propose de décrire le monde comme un arrangement de cuboïdes. Cette représentation est simple et compacte, ce qui peut s'avérer utile pour des applications comme la robotique.En première contribution de cette thèse, nous proposons une solution à un problème récurrent en SIDE: la plupart des méthodes produisent des contours d'occultation flous, alors que ceux-cis devraient être nets. Notre méthode SharpNet introduit des contraintes géométriques ainsi que l'utilisation de données synthétiques pour prédire des cartes de profondeur plus nettes.Notre deuxième contribution poursuit notre quête de netteté pour les contours d'occultation. Les réseaux de neurones sont connus pour être biaisés vers les basses fréquences, ce qui explique que les contours, étant des détails à haute fréquence, sont souvent ignorés par les méthodes utilisant l'apprentissage profond. Notre nouvelle méthode de correction de carte de profondeur permet d'estimer des cartes plus nettes. Nous prédisons des champs de déplacements afin de déplacer les pixels dans ces cartes. Cette méthode génère des contours nets, sans sacrifier la précision des méthodes qu'elle corrige.Notre troisième contribution est aussi une simple extension améliorative des méthodes de SIDE. La plupart de ces méthodes utilisent une architecture de type UNet. Alors que les deux premières contributions améliorent la précision des méthodes de SIDE autour des contours d'occultation, cette troisième améliore leur efficacité. Ces contours étant généralement parcimonieux, cela génère un déséquilibre qui résulte le plus souvent en des contours de profondeur flous. Avec WaveletMonoDepth, nous utilisons cette parcimonie à notre avantage: nous pouvons alors calculer les convolutions uniquement dans les zones à forte variation de profondeur, principalement autour des contours d'occultation. La décomposition en ondelettes est utilisée comme représentation intermédiaire, et permet de générer de forts gains en efficacité, au prix d'une faible perte en précision.Notre dernière contribution explore la décomposition de scène en primitives 3D. Les caméras RGB-D peuvent être utilisées pour scanner des scènes et les stocker sous forme de nuages de points 3D. Cependant, ce procédé est souvent bruité, et couteux en stockage. Grâce à MonteBoxFinder, nous représentons ces nuages des points bruités sous forme d'arrangement de cuboïdes. Nous détectons d'abord un large nombre de cuboïdes, avant d'en extraire un arrangement qui représente convenablement la scène. Nous nous inspirons de l'algorithme Monte Carlo Tree Search pour résoudre ce problème combinatoire et obtenir de bonnes décompositions en cuboïdes. Les cuboïdes ainsi obtenus peuvent alors servir d'annotations pour entrainer des algorithmes de décomposition en cuboïdes à partir d'une image.