Thèse en cours

Modèles génératifs pour des données visuelles complexes

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu en 2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Marlène Careil
Direction : Marco CagnazzoJakob Verbeek
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Soutenance en 2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire de Traitement et Communication de l'Information
Equipe de recherche : MM : MultiMédia
Jury : Président / Présidente : David Picard
Examinateurs / Examinatrices : Marco Cagnazzo, Juergen Gall, Nicolas Thome, Stéphane Lathuiliere, Adriana Romero soriano
Rapporteurs / Rapporteuses : Juergen Gall, Nicolas Thome

Résumé

FR  |  
EN

Dans cette thèse, nous explorons les modèles génératifs d'images dans le but d'améliorer la compositionalité des objets et permettre un meilleur contrôle du content généré. La génération sémantique est un type spécifique de generation conditionelle qui permet de résoudre ces deux problèmes. Elle consiste à conditionner la génération d'images sur des cartes sémantiques contenant des annotations de classes pour chaque pixel. Étant donné que l'obtention de telles annotations est coûteuse, nous développons des méthodes visant à réduire le besoin d'entrainer sur des grandes bases de données annotées. Avec cet objectif, voici nos contributions. Tout d'abord, avec OCO-GAN, nous developpons une méthode basé sur des GANs (qui est une famille de modèle génératif) qui unifie l'architecture utilisée pour la génération sémantique et la génération non conditionnelle et qui propose un entrainement joint des deux tâches de generation. Quand peu de donnés sont disponibles, nous montrons que nous obtenons une synergie entre les deux tâches ou chacune beneficie de l'autre. Ensuite, avec CAT, nous explorons une méthode de transfert pour la génération sémantique avec une quantité très limitée de données d'entraînement avec des réseaux GANs et des modèles de diffusion (une autre famille de modèle génératif). Cette approche exploite un modèle génératif préalablement entraîné sur une large base de données, puis ré-entraîné sur une petite base de données et estime l'affinité entre les classes d'origines et les nouvelles classes afin de fournir des informations utiles lors du ré-entraînement du modèle. Dans ZestGuide, nous abordons un scénario encore plus complexe qui ne nécessite pas d'entraînement et est plus flexible que la génération sémantique. Nous conditionnons les pixels sur un texte descriptif, au lieu d'un nom de classe. À l'aide d'un large modèle de diffusion qui génère des images à partir de texte, nous développons une méthode qui modifie le processus de génération de l'image afin de prendre en compte un conditionnement spatial. Enfin, dans PerCo, nous explorons l'utilisation des modèles génératifs pour la compression. De manière similaire à la génération sémantique, nous conditionnons un modèle de diffusion sur des représentations discrètes, mais dans ce cas, ces représentations sont apprises et contraintes à un débit donné. Notre objectif est de réaliser une compression à très faible débit tout en préservant suffisamment la sémantique des objets, et en reconstruisant des images réalistes. Après avoir introduit le contexte et la littérature sur les modèles génératifs, nous détaillons chacune de ces quatre contributions dans un chapitre dédié. Finalement, nous concluons ce manuscrit avec une discussion sur les limitations de ces travaux et les perspectives pour des recherches futures.