Méthodes internes pour la génération et l'inpainting d'images et de vidéos
Auteur / Autrice : | Nicolas Cherel |
Direction : | Yann Gousseau, Alasdair Newson |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, images, automatique et robotique |
Date : | Soutenance le 25/03/2024 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information |
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) | |
Jury : | Président / Présidente : Simon Masnou |
Examinateurs / Examinatrices : Alasdair Newson, Simon Masnou, Julien Rabin, Jean-Michel Morel, Julie Delon, Coloma Ballester, Patrick Pérez | |
Rapporteurs / Rapporteuses : Julien Rabin, Jean-Michel Morel |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L'édition et la génération d'images sont des problèmes complexes dans le domaine du traitement d'images. Récemment, nous avons vu un grand bond en avant dans le développement en utilisant des approches basées sur l'apprentissage qui tirent parti de grandes bases de données d'images.Dans cette thèse, nous étudions les méthodes internes, c'est-à-dire les méthodes basées sur une seule image comme source de données.Cela inclut les méthodes par patchs, les approches d'apprentissage interne qui entraînent un réseau neuronal sur une seule image, et les mécanismes d'attention qui combinent les patchs et les réseaux profonds.Tout d'abord, nous présentons une contribution à la génération mono-image avec une méthode par patchs. Cette approche classique est compétitive par rapport aux approches récentes par réseau mais évite la phase d'apprentissage.Deuxièmement, les mécanismes d'attention sont importants pour modéliser les dépendances à longue distance et sont plus flexibles que les convolutions, mais souffrent d'une terrible complexité calculatoire. En fait, la complexité croît de façon quadratique avec le nombre d'éléments d'entrée, ce qui rend ces couches inutilisables pour les images haute-résolution ou les vidéos. Nous proposons une approximation efficace basée sur la recherche du plus proche voisin.Enfin, nous examinons les modèles de diffusion récents pour l'inpainting d'images et de vidéos. Dans les cas mono-images, nous montrons comment des architectures très légères sont compétitives par rapport à l'état de l'art. Nos modèles s'exécutent et s'entraînent pour une fraction du coût de calcul des modèles les plus courants.Nous proposons également une application à l'inpainting vidéo avec une stratégie d'entraînement spécifique qui améliore significativement les résultats par rapport à la méthode de base. Cette stratégie est particulièrement adaptée à ces modèles à usage unique.