Estimation des correspondances entre images par réseaux de neurones convolutifs
Auteur / Autrice : | Ignacio Rocco |
Direction : | Josef Sivic, Relja Arandjelovic |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 27/10/2020 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Equipe de recherche : Équipe de recherche Models of visual object recognition and scene understanding (Paris) | |
Jury : | Président / Présidente : Vincent Lepetit |
Examinateurs / Examinatrices : Josef Sivic, Relja Arandjelovic, Vincent Lepetit, Andrea Vedaldi, Diane Larlus, Patrick Pérez | |
Rapporteur / Rapporteuse : Vincent Lepetit, Andrea Vedaldi |
Mots clés
Mots clés contrôlés
Résumé
L’objectif de cette thèse est de développer des méthodes pour la mise en correspondance entre de paires d'images dans des situations difficiles, telles que des changements extrêmes d'éclairage, des scènes avec peu de texture ou comprenant des structures répétitives, ou la mise en correspondance entre parties d'objets qui appartiennent à la même classe mais qui peuvent présenter de grandes différences d'apparence intra-classe. Nos contributions sont les suivantes : (i) nous développons une approche entraînable pour l'alignement paramétrique d'images en utilisant un modèle de réseau siamois, (ii) nous concevons une approche d'entraînement faiblement supervisée, qui permet l'entraînement à partir de paires d'images réelles annotées seulement au niveau des paires d'images, (iii) nous proposons les Réseaux de Consensus de Voisinage qui peuvent être utilisés pour estimer de manière robuste les correspondances pour des tâches où des correspondances discrètes sont requises et (iv) nous développons une variante plus efficace qui peut réduire les besoins en mémoire et le temps d'exécution des Réseaux de Consensus de Voisinage par un facteur dix.