Thèse soutenue

Estimation des correspondances entre images par réseaux de neurones convolutifs

FR  |  
EN
Auteur / Autrice : Ignacio Rocco
Direction : Josef SivicRelja Arandjelovic
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/10/2020
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Equipe de recherche : Équipe de recherche Models of visual object recognition and scene understanding (Paris)
Jury : Président / Présidente : Vincent Lepetit
Examinateurs / Examinatrices : Josef Sivic, Relja Arandjelovic, Vincent Lepetit, Andrea Vedaldi, Diane Larlus, Patrick Pérez
Rapporteur / Rapporteuse : Vincent Lepetit, Andrea Vedaldi

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L’objectif de cette thèse est de développer des méthodes pour la mise en correspondance entre de paires d'images dans des situations difficiles, telles que des changements extrêmes d'éclairage, des scènes avec peu de texture ou comprenant des structures répétitives, ou la mise en correspondance entre parties d'objets qui appartiennent à la même classe mais qui peuvent présenter de grandes différences d'apparence intra-classe. Nos contributions sont les suivantes : (i) nous développons une approche entraînable pour l'alignement paramétrique d'images en utilisant un modèle de réseau siamois, (ii) nous concevons une approche d'entraînement faiblement supervisée, qui permet l'entraînement à partir de paires d'images réelles annotées seulement au niveau des paires d'images, (iii) nous proposons les Réseaux de Consensus de Voisinage qui peuvent être utilisés pour estimer de manière robuste les correspondances pour des tâches où des correspondances discrètes sont requises et (iv) nous développons une variante plus efficace qui peut réduire les besoins en mémoire et le temps d'exécution des Réseaux de Consensus de Voisinage par un facteur dix.