Thèse en cours

Adaptation au domaine pour les modèles génératifs visuels conditionnés par le texte
FR  |  
EN
Auteur / Autrice : Paul Grimal
Direction : Olivier Ferret
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 22/11/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire d'intégration de systèmes et de technologies
référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

L'une des réalisations les plus passionnantes depuis l'avènement des réseaux d'apprentissage profond est le développement de nouveaux modèles génératifs. Ces modèles ont des applications directes telles que la restauration d'images (par exemple l'inpainting, le denoising ou le deblurring) et l'édition d'images, la synthèse de jeux de données et les 'deep fakes'. Ils sont également intégrés à des modèles appliqués à diverses tâches telles que l'apprentissage few-shot ou zero-shot. Ces applications nécessitent généralement une certaine forme de contrôle sur les images générées, l'approche la plus simple consistant à conditionner le générateur par les attributs souhaités. Un cas particulier de modèles génératifs conditionnels consiste à s'appuyer sur le langage naturel pour conditionner le générateur, ce qui permet d'obtenir un modèle qui crée une image à partir de texte. La qualité de ces images s'est rapidement améliorée en conditionnant de gros réseaux appris à partir de très grands corpus, ce qui les rend capables de refléter une connaissance commune assez générale. Cependant, cela soulève également certaines limites pour leur utilisation pratique dans un domaine spécifique, avec une faible diversité d'images d'intérêt et l'utilisation d'un court 'prompt' textuel pour conditionner le modèle. L'objectif principal de la thèse est d'adapter les modèles génératifs visuels conditionnés par le texte à des domaines spécifiques (visuels ou textuels), tout en conservant ou en améliorant la possibilité d'obtenir un contrôle fin sur les images générées. Les voies de recherche possibles incluent le développement d'une méthode pour adapter les modèles à un domaine particulier avec le moins de données possible, et la capacité de générer des images à partir de textes longs, avec des phrases complexes et des thèmes multiples. Parmi tous les domaines d'images possibles, nous sommes particulièrement intéressés par les tomodensitométries et les rapports médicaux associés, afin de créer des corpus anonymes qui ne correspondent à aucun patient existant tout en étant suffisamment réalistes pour permettre aux médecins de mener des recherches et des formations sur ces images.