Des modèles hybrides combinant représentations neuronales profondes et méthodesnon-paramétriques à patchs pour la génération d’images photoréalistes
Auteur / Autrice : | Benjamin Samuth |
Direction : | David Tschumperlé |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 13/12/2024 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École Doctorale Mathématiques, Information, Ingénierie des Systèmes |
Partenaire(s) de recherche : | Laboratoire : Groupe de recherche en informatique, image et instrumentation de Caen |
Établissement co-accrédité : Université de Caen Normandie | |
Jury : | Président / Présidente : Yann Gousseau |
Examinateurs / Examinatrices : Yann Gousseau, Pierre Chainais, Julien Rabin, Frédéric Jurie, Nicolas Papadakis, Lara Raad cisa | |
Rapporteurs / Rapporteuses : Yann Gousseau, Pierre Chainais |
Mots clés
Résumé
Le domaine de la génération d'images a récemment connu de fortesavancées grâce aux rapides évolutions des modèles neuronaux profonds.Leur succès ayant atteint une portée au-delà de la sphèrescientifique, de multiples inquiétudes et questionnements se sontlégitimement soulevées quant à leur fonctionnement et notammentl'usage de leurs données d'entraînement. En effet, ces modèles sont sivolumineux en paramètres et coûteux en énergie qu'il en devientdifficile d'offrir des garanties et des explications concrètes. Àl'inverse, des modèles légers et explicables seraient souhaitablespour répondre à ces nouvelles problématiques, mais au coût d'unequalité et flexibilité de génération moindre.Cette thèse explore l'idée de construire des « modèles hybrides », quicombineraient intelligemment les qualités des méthodes légères oufrugales avec les performances des réseaux profonds. Nous étudionsd'abord le cas du transfert de style artistique à l'aide d'une méthodecontrainte, multi-échelle, et à patchs. Nous déterminons alorsqualitativement l'intérêt d'une métrique perceptuelle dans cetteopération. Par ailleurs, nous développons deux méthodes hybrides degénération de visages photoréalistes, à l'aide d'un auto-encodeurpré-entraîné. Le premier s'attaque à la génération de visages avecpeu d'échantillons à l'aide de patchs latents, montrant une notablerobustesse et des résultats convaincants avec un simple algorithmeséquentiel à patchs. Le second offre une solution à la généralisationde la tâche à une plus grande variétés de visages grâce à des modèlesde mixtures de gaussiennes. En particulier, nous montrons que cesmodèles offrent des performances similaires à d'autres modèlesneuronaux, tout en s'affranchissant d'une quantité importante deparamètres et d'étapes de calculs.