Thèse soutenue

Méthodes internes pour la génération et l'inpainting d'images et de vidéos

FR  |  
EN
Auteur / Autrice : Nicolas Cherel
Direction : Yann GousseauAlasdair Newson
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 25/03/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Jury : Président / Présidente : Simon Masnou
Examinateurs / Examinatrices : Alasdair Newson, Simon Masnou, Julien Rabin, Jean-Michel Morel, Julie Delon, Coloma Ballester, Patrick Pérez
Rapporteurs / Rapporteuses : Julien Rabin, Jean-Michel Morel

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'édition et la génération d'images sont des problèmes complexes dans le domaine du traitement d'images. Récemment, nous avons vu un grand bond en avant dans le développement en utilisant des approches basées sur l'apprentissage qui tirent parti de grandes bases de données d'images.Dans cette thèse, nous étudions les méthodes internes, c'est-à-dire les méthodes basées sur une seule image comme source de données.Cela inclut les méthodes par patchs, les approches d'apprentissage interne qui entraînent un réseau neuronal sur une seule image, et les mécanismes d'attention qui combinent les patchs et les réseaux profonds.Tout d'abord, nous présentons une contribution à la génération mono-image avec une méthode par patchs. Cette approche classique est compétitive par rapport aux approches récentes par réseau mais évite la phase d'apprentissage.Deuxièmement, les mécanismes d'attention sont importants pour modéliser les dépendances à longue distance et sont plus flexibles que les convolutions, mais souffrent d'une terrible complexité calculatoire. En fait, la complexité croît de façon quadratique avec le nombre d'éléments d'entrée, ce qui rend ces couches inutilisables pour les images haute-résolution ou les vidéos. Nous proposons une approximation efficace basée sur la recherche du plus proche voisin.Enfin, nous examinons les modèles de diffusion récents pour l'inpainting d'images et de vidéos. Dans les cas mono-images, nous montrons comment des architectures très légères sont compétitives par rapport à l'état de l'art. Nos modèles s'exécutent et s'entraînent pour une fraction du coût de calcul des modèles les plus courants.Nous proposons également une application à l'inpainting vidéo avec une stratégie d'entraînement spécifique qui améliore significativement les résultats par rapport à la méthode de base. Cette stratégie est particulièrement adaptée à ces modèles à usage unique.