Thèse soutenue

Des modèles hybrides combinant représentations neuronales profondes et méthodesnon-paramétriques à patchs pour la génération d’images photoréalistes

FR  |  
EN
Auteur / Autrice : Benjamin Samuth
Direction : David Tschumperlé
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2024
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École Doctorale Mathématiques, Information, Ingénierie des Systèmes
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image et instrumentation de Caen
Établissement co-accrédité : Université de Caen Normandie
Jury : Président / Présidente : Yann Gousseau
Examinateurs / Examinatrices : Yann Gousseau, Pierre Chainais, Julien Rabin, Frédéric Jurie, Nicolas Papadakis, Lara Raad cisa
Rapporteurs / Rapporteuses : Yann Gousseau, Pierre Chainais

Résumé

FR  |  
EN

Le domaine de la génération d'images a récemment connu de fortesavancées grâce aux rapides évolutions des modèles neuronaux profonds.Leur succès ayant atteint une portée au-delà de la sphèrescientifique, de multiples inquiétudes et questionnements se sontlégitimement soulevées quant à leur fonctionnement et notammentl'usage de leurs données d'entraînement. En effet, ces modèles sont sivolumineux en paramètres et coûteux en énergie qu'il en devientdifficile d'offrir des garanties et des explications concrètes. Àl'inverse, des modèles légers et explicables seraient souhaitablespour répondre à ces nouvelles problématiques, mais au coût d'unequalité et flexibilité de génération moindre.Cette thèse explore l'idée de construire des « modèles hybrides », quicombineraient intelligemment les qualités des méthodes légères oufrugales avec les performances des réseaux profonds. Nous étudionsd'abord le cas du transfert de style artistique à l'aide d'une méthodecontrainte, multi-échelle, et à patchs. Nous déterminons alorsqualitativement l'intérêt d'une métrique perceptuelle dans cetteopération. Par ailleurs, nous développons deux méthodes hybrides degénération de visages photoréalistes, à l'aide d'un auto-encodeurpré-entraîné. Le premier s'attaque à la génération de visages avecpeu d'échantillons à l'aide de patchs latents, montrant une notablerobustesse et des résultats convaincants avec un simple algorithmeséquentiel à patchs. Le second offre une solution à la généralisationde la tâche à une plus grande variétés de visages grâce à des modèlesde mixtures de gaussiennes. En particulier, nous montrons que cesmodèles offrent des performances similaires à d'autres modèlesneuronaux, tout en s'affranchissant d'une quantité importante deparamètres et d'étapes de calculs.