Reconstruction d'objets 3D à partir d'une image monoculaire en utilisant l'apprentissage profond.
Auteur / Autrice : | Tarek Ben Charrada |
Direction : | Hedi Tabia |
Type : | Thèse de doctorat |
Discipline(s) : | STIC (Sciences et Technologies de l'Information et de la Communication) - ED EM2PSI |
Date : | Soutenance le 07/10/2022 |
Etablissement(s) : | CY Cergy Paris Université |
Ecole(s) doctorale(s) : | École doctorale Économie, Management, Mathématiques, Physique et Sciences Informatiques (Cergy-Pontoise, Val d'Oise) |
Partenaire(s) de recherche : | Laboratoire : Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise, Val d'Oise ; 2002-....) |
Jury : | Président / Présidente : Guillaume Lavoué |
Examinateurs / Examinatrices : Hedi Tabia, Djamila Aouada, Maks Ovsjanikov, Yulia Gryaditskaya, Hamid Laga, Aladine Chetouani | |
Rapporteur / Rapporteuse : Guillaume Lavoué, Djamila Aouada |
Mots clés
Mots clés contrôlés
Résumé
Comprendre le monde 3D qui nous entoure est un problème fondamental. Cependant, apprendre à reconstruire efficacement une scène 3D reste un problème ouvert. Les nuages de points 3D utilisés pour représenter des objets 3D manquent de la notion de structure. Ainsi, il est difficile de faire apprendre un réseau de neurones à générer un nuage de points. Les méthodes de reconstruction 3D existantes qui ont tenté de résoudre ce problème reposent sur des architectures complexes de bout en bout avec des coûts de calcul élevés. Les travaux antérieurs qui utilisent des représentations Mesh sont basés sur des modèles (templates). Ainsi, ils sont limités à la reconstruction d'objets qui ont la même topologie que le modèle. Les méthodes qui utilisent des grilles volumétriques comme représentations intermédiaires sont gourmandes en termes de mémoire et coûteuses en temps de calcul. Cela limite leurs applications dans des scénarios réels. Dans cette thèse, nous nous concentrons sur le problème de la reconstruction des objects 3D en temps réel à partir d'une image monoculaire. Nous apportons les contributions suivantes : Tout d'abord, nous proposons un nouveau mécanisme pour découpler le problème de reconstruction 3D du problème d'apprentissage de structure (ou de topologie) 3D, rendant la reconstruction 3D d'objets de topologies arbitraires plus facile à apprendre. Le réseau résultant ne nécessite que 6,33 ms pour reconstruire 10 000 points sans aucun compromis de précision. Deuxièmement, nous proposons un nouvel algorithme qui permet aux réseaux de neurones d'apprendre à ajuster, à l'aide d'opérations de suppression, la topologie du modèle pour mieux s'adapter à la topologie de l'objet cible. Enfin, nous proposons une nouvelle couche de triangulation apprenable qui apprend de manière non supervisée, en utilisant l'apprentissage par renforcement, la meilleure triangulation d'un nuage de points permettant ainsi l'apprentissage de bout en bout de la reconstruction de maillage à partir d'une seule image monoculaire. Ainsi, nos expériences sur des benchmarks publics montrent que la méthode proposée surpasse l'état de l'art en termes de qualité visuelle, de précision de reconstruction et de temps de calcul.