Des modèles hybrides combinant représentations neuronales profondes et méthodes non-paramétriques à patchs pour la génération d’images photoréalistes
Auteur / Autrice : | Benjamin Samuth |
Direction : | David Tschumperle, Julien Rabin |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 28/09/2021 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École Doctorale Mathématiques, Information, Ingénierie des Systèmes |
Partenaire(s) de recherche : | Laboratoire : Groupe de recherche en informatique, image et instrumentation de Caen |
Établissement co-accrédité : Université de Caen Normandie | |
Jury : | Président / Présidente : David Tschumperle |
Examinateurs / Examinatrices : Pierre Chainais, Nicolas Papadakis, Yann Gousseau, Lara Raad, David Tschumperle, Frederic Jurie, Julien Rabin | |
Rapporteur / Rapporteuse : Pierre Chainais, Yann Gousseau |
Mots clés
Mots clés contrôlés
Résumé
Le domaine de la génération d'images a récemment connu de fortes avancées grâce aux rapides évolutions des modèles neuronaux profonds. Leur succès ayant atteint une portée au-delà de la sphère scientifique, de multiples inquiétudes et questionnements se sont légitimement soulevées quant à leur fonctionnement et notamment l'usage de leurs données d'entraînement. En effet, ces modèles sont si volumineux en paramètres et coûteux en énergie qu'il en devient difficile d'offrir des garanties et des explications concrètes. À l'inverse, des modèles légers et explicables seraient souhaitables pour répondre à ces nouvelles problématiques, mais au coût d'une qualité et flexibilité de génération moindre. Cette thèse explore l'idée de construire des « modèles hybrides », qui combineraient intelligemment les qualités des méthodes légères ou frugales avec les performances des réseaux profonds. Nous étudions d'abord le cas du transfert de style artistique à l'aide d'une méthode contrainte, multi-échelle, et à patchs. Nous déterminons alors qualitativement l'intérêt d'une métrique perceptuelle dans cette opération. Par ailleurs, nous développons deux méthodes hybrides de génération de visages photoréalistes, à l'aide d'un auto-encodeur pré-entraîné. Le premier s'attaque à la génération de visages avec peu d'échantillons à l'aide de patchs latents, montrant une notable robustesse et des résultats convaincants avec un simple algorithme séquentiel à patchs. Le second offre une solution à la généralisation de la tâche à une plus grande variétés de visages grâce à des modèles de mixtures de gaussiennes. En particulier, nous montrons que ces modèles offrent des performances similaires à d'autres modèles neuronaux, tout en s'affranchissant d'une quantité importante de paramètres et d'étapes de calculs.