Thèse soutenue

Inpainting de vidéos et suppression d'objets semi-supervisée

FR  |  
EN
Auteur / Autrice : Thuc Trinh Le
Direction : Andrés AlmansaSimon Masnou
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 06/06/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Gabriele Facciolo
Examinateurs / Examinatrices : Patrick Pérez, David Tschumperlé, Yann Gousseau
Rapporteurs / Rapporteuses : Christine Guillemot, Guillermo Sapiro

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

De nos jours, l'augmentation rapide de les vidéos crée une demande massive d'applications d'édition de vidéos. Dans cette thèse, nous résolvons plusieurs problèmes relatifs au post-traitement vidéo. Nous nous concentrons sur l'application de suppression d'objets en vidéo. Pour mener à bien cette tâche, nous l'avons divisé en deux problèmes: (1) une étape de segmentation des objets vidéo pour sélectionner les objets à supprimer et (2) une étape d'inpainting vidéo pour remplir les zones endommagées. Pour le problème de la segmentation vidéo, nous concevons un système adapté aux applications de suppression d’objets avec différentes exigences en termes de précision et d’efficacité. Notre approche repose sur la combinaison de réseaux de neurones convolutifs (CNN) pour la segmentation et de la méthode classique de suivi des masks. Nous adoptons des réseaux de segmentation d’images et les appliquons à la casse vidéo en effectuant une segmentation image par image. En exploitant à la fois les formations en ligne et hors ligne avec uniquement une annotation de première image, les réseaux sont en mesure de produire une segmentation extrêmement précise des objets vidéo. En outre, nous proposons un module de suivi de masque pour assurer la continuité temporelle et un module de liaison de masque pour assurer la cohérence de l'identité entre les trames. De plus, nous présentons un moyen simple d’apprendre la couche de dilatation dans le masque, ce qui nous aide à créer des masques appropriés pour l’application de suppression d’objets vidéo.Pour le problème d’inpainting vidéo, nous divisons notre travail en deux catégories basées sur le type de fond. En particulier, nous présentons une méthode simple de propagation de pixels guidée par le mouvement pour traiter les cas d’arrière-plan statiques. Nous montrons que le problème de la suppression d'objets avec un arrière-plan statique peut être résolu efficacement en utilisant une technique simple basée sur le mouvement. Pour traiter le fond dynamique, nous introduisons la méthode d’inpainting vidéo en optimisant une fonction d’énergie globale basée sur des patchs. Pour augmenter la vitesse de l'algorithme, nous avons proposé une extension parallèle de l'algorithme 3D PatchMatch. Pour améliorer la précision, nous intégrons systématiquement le flux optique dans le processus global. Nous nous retrouvons avec une méthode d’inpainting vidéo capable de reconstruire des objets en mouvement ainsi que de reproduire des textures dynamiques tout en fonctionnant dans des délais raisonnables.Enfin, nous combinons les méthodes de segmentation des objets vidéo et d’inpainting vidéo dans un système unifié pour supprimer les objets non souhaités dans les vidéos. A notre connaissance, il s'agit du premier système de ce type. Dans notre système, l'utilisateur n'a qu'à délimiter approximativement dans le premier cadre les objets à modifier. Ce processus d'annotation est facilité par l'aide de superpixels. Ensuite, ces annotations sont affinées et propagées dans la vidéo par la méthode de segmentation des objets vidéo. Un ou plusieurs objets peuvent ensuite être supprimés automatiquement à l’aide de nos méthodes d’inpainting vidéo. Il en résulte un outil de montage vidéo informatique flexible, avec de nombreuses applications potentielles, allant de la suppression de la foule à la correction de scènes non physiques.