Thèse soutenue

Apprentissage de distributions multi-modales et éditions d'image avec des modèles génératifs profonds

FR  |  
EN
Auteur / Autrice : Thibaut Issenhuth
Direction : David Picard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/06/2023
Etablissement(s) : Marne-la-vallée, ENPC
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009)
Jury : Président / Présidente : Julie Delon
Examinateurs / Examinatrices : David Picard, Rémi Flamary, Matthieu Cord, Jia-Bin Huang, Jakob Verbeek, Jérémie Mary, Vicky Kalogeiton
Rapporteurs / Rapporteuses : Rémi Flamary, Matthieu Cord

Résumé

FR  |  
EN

Les dernières années ont vu de grands progrès des modèles génératifs profonds, et notamment des Réseaux Adversaires Génératifs (GAN). Ils peuvent notamment synthétiser des images haute résolution indiscernables des images réelles. Les modèles génératifs profonds ont également été à l'origine de succès empiriques tels que la génération de musique ou la découverte moléculaire. Cependant, nous manquons d'une compréhension fondamentale des capacités et des limites des modèles génératifs profonds. Dans cette thèse, nous caractérisons d'abord une limitation des modèles génératifs modélisant une distribution connexe, tels que les GANs ou les flots normalisés. En effet, de tels modèles ne peuvent pas s'adapter parfaitement à une distribution cible composée de plusieurs modes déconnectés. Nous analysons théoriquement leur meilleure performance réalisable dans le cadre de distributions cible déconnectées, et nous présentons une structure géométrique leur permettant d'atteindre une performance optimale. De plus, nous proposons des méthodes pour améliorer les GANs en les rendant plus adaptés à la modélisation de données déconnectées.Dans la deuxième partie de la thèse, nous visons à améliorer les techniques d'édition d'images grâce aux modèles génératifs profonds. Tout d'abord, nous nous appuyons sur un modèle génératif non conditionnel et pré-entraîné, et montrons qu'il peut effectuer une large variété de tâches d'édition d'images sans réentraînement. Deuxièmement, nous nous appuyons sur l'apprentissage adversaire pour améliorer les modèles de cabine d'essayage virtuel, qui consistent à remplacer l'article vestimentaire sur une image d'une personne.