Reconstruction d'une scène masquée à partir de multi-image
Auteur / Autrice : | Xiaoyi Yang |
Direction : | Henri Maître, Yohann Tendero |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement du signal et des images |
Date : | Soutenance le 18/12/2018 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) |
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) | |
Jury : | Président / Présidente : Liming Chen |
Examinateurs / Examinatrices : Henri Maître, Antoine Manzanera | |
Rapporteurs / Rapporteuses : Françoise Dibos, Valérie Gouet-Brunet |
Mots clés
Résumé
La problématique générale de cette thèse est de reconstituer la scène de fond à partir d’une séquence d’images en présence de masques d’avant-plan. Nous nous sommes intéressés aux méthodes pour détecter ce qui constitue le fond ainsi que les solutions pour corriger les parties cachées et les distorsions géométrique et chromatique introduites lors de la photographie.Une série de processus est proposée, dont la mise en œuvre comporte dans l'ordre l’alignement géométrique, le réglage chromatique, la fusion des images et la correction des défauts.Nous nous plaçons dans l’hypothèse où le fond est porté sur une surface plane. L'alignement géométrique est alors réalisé par calcul de l'homographie entre une image quelconque et l’image qui sert de référence, suivi d’une interpolation bilinéaire.Le réglage chromatique vise à retrouver un même contraste dans les différentes images. Nous proposons de modéliser la mise en correspondance chromatique entre images par une approximation linéaire dont les paramètres sont déterminés par les résultats de la mise en correspondance des points de contrôle (SIFT).Ces deux étapes sont suivies par une étape de fusion. Plusieurs techniques sont comparées.La première proposition est d’étendre la définition de la médiane dans l’espace vectoriel. Elle est robuste lorsqu’il y a plus de la moitié des images qui voient les pixels d’arrière-plan. En outre, nous concevons un algorithme original basé sur la notion de clique. Il permet de détecter le plus grand nuage de pixels dans l'espace RGB. Cette approche est fiable même lorsque les pixels d’arrière-plan sont minoritaires.Lors de la mise en œuvre de ce protocole, on constate que certains résultats de fusion présentent des défauts de type flou dus à l’existence d’erreurs d’alignement géométrique. Nous proposons donc un traitement complémentaire. Il est basé sur une comparaison entre le résultat de fusion et les images alignées après passage d'un filtre gaussien. Sa sortie est un assemblage des morceaux très détaillés d'image alignés qui ressemblent le plus au résultat de fusion associés.La performance de nos méthodes est évaluée par un ensemble de données contenant de nombreuses images de qualités différentes. Les expériences confirment la fiabilisé et la robustesse de notre conception dans diverses conditions de photographie.