Méthodes par patchs et apprentissage profond pour l'inpainting vidéo

par Nicolas Cherel

Projet de thèse en Informatique, données, IA

Sous la direction de Yann Gousseau, Alasdair Newson et de Andres Almansa.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) depuis le 01-11-2020 .


  • Résumé

    Le sujet de la thèse est l'inpainting vidéo, c'est-à-dire le remplissage d'une région spatio-temporelle dans une vidéo. C'est une tâche qui est nécessaire dans la post-production de films, ou bien pour des besoins personnels (ex. enlever une poubelle d'une photo de famille). Cette opération pose plusieurs défis scientifiques. Premièrement, comment reconstruire à la fois la structure, texture et mouvement dans une vidéo ? Deuxièmement, comment maîtriser le coût en termes de calcul et de mémoire, sachant que le traitement de vidéos implique des données de grande dimension. Troisièmement, comment réussir à remplir la zone de manière sémantique, c'est-à-dire de remplir avec un contenu image qui a du sens dans le contexte global de l'image ? Pour atteindre ces buts, nous utiliserons les avantages respectifs de deux ensembles de méthodes. Premièrement, les méthodes fondées sur les patchs, qui induisent une grande cohérence locale dans les résultats, et deuxièmement l'apprentissage profond, qui permettent de créer du contenu réellement nouveau, contrairement aux patchs qui sont limités au contenu de la vidéo en question. Nous espérons ainsi développer des outils algorithmiques qui permettent un inpainting avec à la fois une cohérence locale et sémantique du résultat, ce qui n'existe pas actuellement dans la littérature.

  • Titre traduit

    Video inpainting using patch-based methods and deep learning


  • Résumé

    The subject of the thesis is video inpainting, i.e. the filling of a spatio-temporal region in a video. It is a task that is necessary in film post-production, or for personal needs (e.g. removing a trash can from a family photo). This operation poses several scientific challenges. First, how to reconstruct both structure, texture and movement in a video? Second, how to control the cost in terms of computation and memory, knowing that video processing involves large data sets. Third, how to succeed in filling the area semantically, i.e. to fill it with image content that makes sense in the overall context of the image? To achieve these goals, we will use the respective advantages of two sets of methods. First, patch-based methods, which induce a high local consistency in the results, and second, deep learning methods, which allow the creation of truly new content, unlike patches which are limited to the content of the video in question. In this way, we hope to develop algorithmic tools that allow inpainting with both local and semantic consistency of the result, which does not currently exist in the literature.