Avancées dans les modèles génératifs : amélioration de l'interprétabilité et du contrôle des données complexes grâce à la désentrelacement et la génération conditionnelle
Auteur / Autrice : | Kaifeng Zou |
Direction : | Sylvain Faisan, Fabrice Heitz, Sébastien Valette |
Type : | Thèse de doctorat |
Discipline(s) : | SIAR (Signal, Image, Automatique, Robotique) |
Date : | Soutenance le 28/09/2023 |
Etablissement(s) : | Strasbourg |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences de l'information et de l'ingénieur (Strasbourg ; 1997-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (Strasbourg ; 2013-....) |
Jury : | Président / Présidente : Pierre Charbonnier |
Rapporteurs / Rapporteuses : Marco Lorenzi, Su Ruan |
Mots clés
Mots clés contrôlés
Résumé
Les modèles génératifs sont une classe de modèles d'apprentissage automatique qui visent à apprendre la distribution sous-jacente d'un ensemble de données donné et à générer de nouveaux points de données qui ressemblent aux données originales. Ces modèles ont suscité beaucoup d'attention ces dernières années en raison de leur capacité à produire des échantillons de données réalistes et diversifiés. Les modèles génératifs, tels que les VAE (Variational Autoencoders), les GANs (Generative Adversarial Networks), les EBMs (Energy-Based Models), les modèles de diffusion, ont montré un grand potentiel dans de nombreux domaines, notamment la génération d'images, la synthèse de la parole et le traitement du langage naturel, et continuent d'être un domaine actif de recherche, avec de nouveaux modèles et techniques en développement pour améliorer leurs performances et élargir leurs applications. Une des applications les plus importantes des modèles génératifs est la représentation désentrelacée, qui fait référence à un type d'apprentissage des caractéristiques dans lequel les facteurs sous-jacents ou les attributs des données sont appris et représentés de manière indépendante. Dans notre recherche, nous utilisons des représentations désentrelacées pour relever le défi de la détermination du sexe et fournir des informations sur les résultats de classification. Cela est réalisé en générant des os de hanche pour le même individu des deux sexes, puis en effectuant une comparaison pour identifier les distinctions liées au sexe. De plus, nous visons à acquérir des connaissances sur le facteur de haut niveau et ses attributs en apprenant la représentation associée, ce qui nous permet de contrôler efficacement les caractéristiques liées à l'étiquette. Pour ce faire, nous introduisons deux cadres VAE innovants visant à apprendre la représentation associée à l'étiquette et à améliorer simultanément la qualité de la génération VAE. De plus, notre recherche contribue également à la génération conditionnelle. Nous appliquons un modèle de diffusion aux données séquentielles, montrant sa capacité à générer des expressions faciales 3D, impliquant des données en série temporelle. Ce processus inversé offre une flexibilité remarquable, permettant divers types de conditionnement et de génération grâce à une seule procédure de formation.