Thèse soutenue

FR
Accès à la thèse
Auteur / Autrice : Roman Klokov
Direction : Edmond BoyerJakob Verbeek
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance en 2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère2019-....)
Jury : Président / Présidente : Radu Horaud
Examinateurs / Examinatrices : Angela Dai
Rapporteurs / Rapporteuses : Vincent Lepetit, Maks Ovsjanikov

Résumé

FR  |  
EN

L’application des stratégies d’apprentissage profond, aux données de formes 3D pose divers défis aux chercheurs. La nature complexe de ces données 3D autorise différentes représentations, par exemples les grilles d’occupation, les nuages de points, les maillages ou les fonctions implicites. Chacune de ces représentations a vu apparaitre des familles de réseaux de neurones profonds capables de traiter et prédire en fonction d’échantillons, cela pour diverses tâches de reconnaissance, de génération et de modification de données. Les modèles d’apprentissage profond modernes obligent les chercheurs à effectuer divers choix de conception associés à leurs architectures, aux algorithmes d’apprentissage et à d’autres aspects plus spécifiques des applications choisies. Ces choix sont souvent faits sur la base d’heuristiques, ou de manière empirique au travers de nombreuses évaluations expérimentales coûteuses. La modélisation probabiliste offre une alternative à cela et permet de formaliser les tâches d’apprentissage automatique de manière rigoureuse et de développer des objectifs d’entrainement qui reposent sur les probabilités. Cette thèse explore la combinaison de l’apprentissage profond avec la modélisation probabiliste dans le cadre applicatif des données 3D de formes géométriques. La première contribution porte sur l’inférence d’une forme 3D à partir d’une seule vue et explore comment la modélisation probabiliste pourrait être appliquée dans ce contexte. Nous proposons pour cela un ensemble de modèles probabilistes, les réseaux de reconstruction probabilistes (PRN), qui traitent la tâche comme une génération conditionnée par l’image et introduisent une variable latente globale qui encode les informations de géométrie des formes. Nous expérimentons différents conditionnements par l’image et deux objectifs d’entraînement différents basés pour l’un sur la méthode de Monte Carlo et pour l’autre sur l’approximation variationnel de la vraisemblance du modèle. Les modèles PRN sont évalués avec l’inférence de grilles d’occupation 3D à partir d’une seule vue, sur des formes synthétiques observées à partir de points de vue aléatoires. Nous montrons que le conditionnement, par l’image observée, de la distribution a priori de la variable latente est suffisant pour obtenir des performances compétitives pour les métriques basées sur les nuages de points et état de l’art pour les métriques basées sur les voxels. Nous démontrons en outre que l’objectif probabiliste basé sur l’approximation variationnelle de la vraisemblance permet au modèle d’obtenir de meilleurs résultats que l’approximation basée sur Monte Carlo. La deuxième contribution est un modèle probabiliste pour la génération de nuages de points 3D. Ces nuages de points sont vus comme des distributions sur des variables échangeables et utilise le théorème de Finetti pour définir un modèle global de variables latentes avec des distributions conditionnellement indépendantes pour les coordonnées de chaque point. Pour modéliser ces distributions ponctuelles, un nouveau type de flux de normalisation conditionnelle est proposé, basé sur un couplage discret des dimensions des coordonnées ponctuelles. Nous étendons également nos réseaux de flux ponctuels discrets (DPFN) de la génération à la tâche d’inférence à vue unique en conditionnant la variable latente globale a priori d’une manière similaire aux PRN de la première contribution. Les performances génératives résultantes démontrent que les DPFN produisent des échantillons de qualité et de diversité similaires à l’état de l’art basé sur des flux de normalisation continus, mais sont environ 30 fois plus rapides que ces derniers, à la fois dans la formation et l’échantillonnage. Les résultats des tâches d’encodage automatique et d’inférence à vue unique montrent des performances compétitives et état de l’art avec les métriques de distance de chanfrein, de F-score et de distance de Wasserstein pour les nuages de points.