Modèles génératifs pour des données visuelles complexes

Marlène Careil

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles génératifs pour des données visuelles complexes

FR |

EN

Accès à la thèse

La soutenance a eu lieu en 2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.

Auteur / Autrice :	Marlène Careil
Direction :	Marco Cagnazzo, Jakob Verbeek
Type :	Projet de thèse
Discipline(s) :	Informatique, données, IA
Date :	Soutenance en 2024
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : Laboratoire de Traitement et Communication de l'Information
	Equipe de recherche : MM : MultiMédia
Jury :	Président / Présidente : David Picard
	Examinateurs / Examinatrices : Marco Cagnazzo, Juergen Gall, Nicolas Thome, Stéphane Lathuiliere, Adriana Romero soriano
	Rapporteurs / Rapporteuses : Juergen Gall, Nicolas Thome

Mots clés

FR |

EN

Mots clés libres

Génération de données

Segmentation sémantique

Réseaux de neurones profonds

Résumé

FR |

EN

Dans cette thèse, nous explorons les modèles génératifs d'images dans le but d'améliorer la compositionalité des objets et permettre un meilleur contrôle du content généré. La génération sémantique est un type spécifique de generation conditionelle qui permet de résoudre ces deux problèmes. Elle consiste à conditionner la génération d'images sur des cartes sémantiques contenant des annotations de classes pour chaque pixel. Étant donné que l'obtention de telles annotations est coûteuse, nous développons des méthodes visant à réduire le besoin d'entrainer sur des grandes bases de données annotées. Avec cet objectif, voici nos contributions. Tout d'abord, avec OCO-GAN, nous developpons une méthode basé sur des GANs (qui est une famille de modèle génératif) qui unifie l'architecture utilisée pour la génération sémantique et la génération non conditionnelle et qui propose un entrainement joint des deux tâches de generation. Quand peu de donnés sont disponibles, nous montrons que nous obtenons une synergie entre les deux tâches ou chacune beneficie de l'autre. Ensuite, avec CAT, nous explorons une méthode de transfert pour la génération sémantique avec une quantité très limitée de données d'entraînement avec des réseaux GANs et des modèles de diffusion (une autre famille de modèle génératif). Cette approche exploite un modèle génératif préalablement entraîné sur une large base de données, puis ré-entraîné sur une petite base de données et estime l'affinité entre les classes d'origines et les nouvelles classes afin de fournir des informations utiles lors du ré-entraînement du modèle. Dans ZestGuide, nous abordons un scénario encore plus complexe qui ne nécessite pas d'entraînement et est plus flexible que la génération sémantique. Nous conditionnons les pixels sur un texte descriptif, au lieu d'un nom de classe. À l'aide d'un large modèle de diffusion qui génère des images à partir de texte, nous développons une méthode qui modifie le processus de génération de l'image afin de prendre en compte un conditionnement spatial. Enfin, dans PerCo, nous explorons l'utilisation des modèles génératifs pour la compression. De manière similaire à la génération sémantique, nous conditionnons un modèle de diffusion sur des représentations discrètes, mais dans ce cas, ces représentations sont apprises et contraintes à un débit donné. Notre objectif est de réaliser une compression à très faible débit tout en préservant suffisamment la sémantique des objets, et en reconstruisant des images réalistes. Après avoir introduit le contexte et la littérature sur les modèles génératifs, nous détaillons chacune de ces quatre contributions dans un chapitre dédié. Finalement, nous concluons ce manuscrit avec une discussion sur les limitations de ces travaux et les perspectives pour des recherches futures.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles génératifs pour des données visuelles complexes

Accès à la thèse

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles génératifs pour des données visuelles complexes

Accès à la thèse

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses