Thèse soutenue

Reconstruction 3D par Deep Learning : supervision et représentation

FR  |  
EN
Auteur / Autrice : François Darmon
Direction : Pascal Monasse
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/06/2022
Etablissement(s) : Marne-la-vallée, ENPC
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication
Partenaire(s) de recherche : Equipe de recherche : A3SI - Algorithme, Architecture, Analyse et Synthèse d'Image
Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009)
Jury : Président / Présidente : Gabriele Facciolo
Examinateurs / Examinatrices : Pascal Monasse, Julie Digne, Tamy Boubekeur, Mathieu Aubry, Julie Delon, Bénédicte Bascle, Jean-Clément Devaux
Rapporteurs / Rapporteuses : Julie Digne, Tamy Boubekeur

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La reconstruction 3D est un problème classique en vision par ordinateur. Pourtant, les meilleures méthodes ne fonctionnent toujours pas parfaitement lorsque les images utilisées présentent de grands changements d'illumination et de nombreuses occlusions. L'apprentissage profond (Deep Learning) promet d'améliorer la reconstruction 3D dans de telles configurations, mais les méthodes classiques produisent encore les meilleurs résultats aujourd'hui. Dans cette thèse, nous analysons la spécificité de l'apprentissage profond appliqué à la reconstruction 3D multi-vues et nous introduisons de nouvelles méthodes basées sur l'apprentissage profond.La première contribution de cette thèse est une analyse des différentes supervisions possibles pour l’entraînement de modèles d'apprentissage profond pour l’appariement d'images. Nous introduisons un algorithme en deux étapes qui calcule d'abord des correspondances à basse résolution en utilisant l'apprentissage profond, puis des correspondances de points d'intérêt classiques à l'intérieur des régions appariées. Nous analysons plusieurs niveaux de supervision et montrons que notre nouvelle supervision épipolaire donne les meilleurs résultats.La deuxième contribution est également une étude de la supervision pour l'apprentissage profond mais appliquée à un autre scénario : la reconstruction 3D calibrée à partir d’image non contraintes. Nous montrons que les méthodes non supervisées existantes ne fonctionnent pas sur de telles données et nous introduisons une nouvelle technique d’apprentissage qui résout ce problème. Nous comparons ensuite de manière exhaustive l'approche non supervisée et l'approche supervisée avec différentes architectures de réseau et différentes données d'entraînement.Enfin, notre troisième contribution concerne la représentation des données. Les représentations implicites ont été récemment utilisées pour le rendu d'images. Nous adaptons cette représentation au problème de la reconstruction multi-vues et nous introduisons une nouvelle méthode qui, comme les techniques classiques de reconstruction 3D, optimise la photo-consistance entre les projections de plusieurs images. Notre approche améliore largement les performances de l'état de l'art.