Thèse soutenue

Analyse d'image non supervisée par synthèse

FR  |  
EN
Auteur / Autrice : Tom Monnier
Direction : Mathieu Aubry
Type : Thèse de doctorat
Discipline(s) : Signal, Image, Automatique
Date : Soutenance le 04/12/2023
Etablissement(s) : Marne-la-vallée, ENPC
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009)
Jury : Président / Présidente : Matthieu Cord
Examinateurs / Examinatrices : Mathieu Aubry, Niloy Mitra, Frédo Durand, Mathilde Caron, Katerina Fragkiadaki
Rapporteurs / Rapporteuses : Niloy Mitra, Frédo Durand

Résumé

FR  |  
EN

Le but de cette thèse est de développer des approches d'intelligence artificielle (IA) pour analyser des collections d'images sans annotations. Des avancées dans ce domaine sont prometteuses pour des applications à fort impact reliées à la 3D (e.g., reconstruire une scène avec des composantes 3D manipulables pour les films d'animation ou les jeux vidéos) où annoter des exemples pour entrainer l'IA est difficile, et aussi pour des applications plus spécifiques (e.g., analyser l'évolution des charactères dans des documents du 12ème siècle) où employer des efforts conséquents pour annoter de larges bases de données pose question. L'idée centrale de cette dissertation est de construire des IA qui apprennent l'analyse d'une collection d'images en synthétisant ces mêmes images. Apprendre des modèles d'analyse par synthèse est difficile car cela nécessite la conception d'un système de génération d'images apprenable qui exhibite explicitement l'analyse voulue. Pour atteindre notre but, nous présentons trois contributions clés.La première contribution de cette thèse est une nouvelle approche conceptuelle à la modélisation de catégorie. Nous proposons de représenter la catégorie d'une image, d'un objet 2D ou d'une forme 3D, avec un prototype qui est transformé via appprentissage profond pour modéliser les différentes instances au sein de la catégorie. Plus spécifiquement, nous introduisons des transformations paramétriques concrètes (e.g., des déformations géométriques ou des variations de couleurs) et utilisons des réseaux de neurones pour prédire les paramètres de transformations nécessaires pour instancier le prototype pour une image donnée. Nous démontrons l'efficacité de cette idée en regroupant des images et reconstruisant des objets 3D à part d'images d'une seule vue de l'objet. Nous obtenons des performances égales aux meilleures méthodes qui utilisent des représentations d'image ad-hoc ou des annotations.La deuxième contribution est une nouvelle manière de découvrir des éléments dans une collection d'images. Nous proposons de représenter une collection d'images par un ensemble d'éléments apprennables, composés pour synthétiser les images et optimisés par descente de gradient. Nous démontrons l'efficacité de cette idée en découvrant des éléments 2D reliées à des objets sémantiques représentés dans la collection d'images. Notre approche a des performances semblables aux meilleures méthodes qui synthétisent les images par réseaux de neurones, et est plus interprétable. Nous démontrons aussi son efficacité en découvrant des éléments 3D reliées à des formes primitives étant donnée une collection d'images illustrant une scène via différents points de vue. Comparé aux travaux précédents calculant des primitives dans des nuages de points 3D, nous obtenons des résultats qualitatifs et quantitatifs supérieurs.La troisième contribution est plus technique et consiste en une nouvelle formulation pour calculer le rendu differentiable d'un mesh. Plus spécifiquement, nous formulons le rendu différentiable d'un mesh 3D comme l'alpha composition des faces du mesh par ordre de profondeur croissante. Comparée aux travaux précédents, cette formulation est clé pour apprendre des meshes 3D sans utiliser des annotations représentant les régions d'objet. En outre, cette formulation nous permet de facilement introduire la possibilité d'apprendre des meshes transparents, que nous modélisons pour représenter une scène comme une composition d'un nombre variable de meshes.