Internal methods for the generation and inpainting of images and videos

Nicolas Cherel

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Méthodes internes pour la génération et l'inpainting d'images et de vidéos

FR |

EN

Auteur / Autrice :	Nicolas Cherel
Direction :	Yann Gousseau, Alasdair Newson
Type :	Thèse de doctorat
Discipline(s) :	Signal, images, automatique et robotique
Date :	Soutenance le 25/03/2024
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
	Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Jury :	Président / Présidente : Simon Masnou
	Examinateurs / Examinatrices : Alasdair Newson, Simon Masnou, Julien Rabin, Jean-Michel Morel, Julie Delon, Coloma Ballester, Patrick Pérez
	Rapporteurs / Rapporteuses : Julien Rabin, Jean-Michel Morel

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage profond

Vidéo

Traitement d'images -- Techniques numériques

Mots clés libres

Interne

Inpainting

Vidéo

Apprentissage profond

Résumé

FR |

EN

L'édition et la génération d'images sont des problèmes complexes dans le domaine du traitement d'images. Récemment, nous avons vu un grand bond en avant dans le développement en utilisant des approches basées sur l'apprentissage qui tirent parti de grandes bases de données d'images.Dans cette thèse, nous étudions les méthodes internes, c'est-à-dire les méthodes basées sur une seule image comme source de données.Cela inclut les méthodes par patchs, les approches d'apprentissage interne qui entraînent un réseau neuronal sur une seule image, et les mécanismes d'attention qui combinent les patchs et les réseaux profonds.Tout d'abord, nous présentons une contribution à la génération mono-image avec une méthode par patchs. Cette approche classique est compétitive par rapport aux approches récentes par réseau mais évite la phase d'apprentissage.Deuxièmement, les mécanismes d'attention sont importants pour modéliser les dépendances à longue distance et sont plus flexibles que les convolutions, mais souffrent d'une terrible complexité calculatoire. En fait, la complexité croît de façon quadratique avec le nombre d'éléments d'entrée, ce qui rend ces couches inutilisables pour les images haute-résolution ou les vidéos. Nous proposons une approximation efficace basée sur la recherche du plus proche voisin.Enfin, nous examinons les modèles de diffusion récents pour l'inpainting d'images et de vidéos. Dans les cas mono-images, nous montrons comment des architectures très légères sont compétitives par rapport à l'état de l'art. Nos modèles s'exécutent et s'entraînent pour une fraction du coût de calcul des modèles les plus courants.Nous proposons également une application à l'inpainting vidéo avec une stratégie d'entraînement spécifique qui améliore significativement les résultats par rapport à la méthode de base. Cette stratégie est particulièrement adaptée à ces modèles à usage unique.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Méthodes internes pour la génération et l'inpainting d'images et de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Méthodes internes pour la génération et l'inpainting d'images et de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses