Thèse en cours

Modèles génératifs en tant que ''world model

FR  |  
EN
Auteur / Autrice : Théophane Vallaeys
Direction : Matthieu CordJakob Verbeek
Type : Projet de thèse
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Inscription en doctorat le 07/10/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut des Systèmes Intelligents et de Robotique

Résumé

FR  |  
EN

Les progrès récents en matière de modélisation générative d'images ont attiré l'attention d'un large public. En particulier, les modèles de diffusion conditionnés sur du texte ont vu des applications dans l'assistance à la génération de contenu créatif, et sont généralement optimisés pour la qualité d'image, la fidélité au texte et les préférences esthétiques par rapport à la diversité de générations. À contrario, dans ce projet, nous considérons les modèles génératifs comme des « world models » qui apprennent à représenter la distribution d'un ensemble de données d'apprentissage vaste et diversifié. Nous nous intéression à l'apprentissage du support complet et de la diversité (conditionnelle), en nous concentrant moins sur les préférences d'utilisateurs, des travaux récents ayant suggéré qu'il était possible d'augmenter la diversité au prix d'un faible impact sur la qualité. De plus, Nous prévoyons d'explorer plus profondément les capacités des modèles de diffusion dans le contexte de l'apprentissage de représentations, en étudiant comment les représentations internes extraites de modèles génératifs peuvent être utilisées pour des tâches mélant text et image, telles que la description d'images ou répondre à des questions visuelles. Tout en explorant les capacités de ces méthodes en tant que « world models », nous prévoyons de travailler sur des méthodes générales pour conditionner la distribution de sortie à partir de différentes entrées. Nous nous efforceroons d'équilibrer le réalisme et la diversité avec la fidélité à la condition, tout en fournissant un moyen générique de conditionner pour des objectifs multiples. Compte tenu de tous ces aspects, nous prévoyons finalement d'utiliser les modèles génératifs comme une source infinie et contrôlable de données d'entraînement pour des modèles supervisés. S'il s'avère suffisament précis, un « world model » des données peut être utilisé comme source de données pour entraîner des modèles de reconnaissance et, s'il est correctement contrôlé, peut être utilisé pour corriger des distributions asymétriques ou des biais dans des données d'entraînement. En outre, la génération de données d'entraînement pour les modèles de reconnaissance constitue également un test efficace pour les modèles génératifs : si les données d'entraînement échantillonnées sont moins efficaces que les données d'entraînement originales, le modèle génératif ne parvient apparemment pas à modéliser certains aspects des données et doit être amélioré.