Apprentissage de profondeur par flou de défocalisation : les réseaux de neurones pour l'estimation de la profondeur mono-image
Auteur / Autrice : | Marcela Pinheiro de Carvalho |
Direction : | Frédéric Champagnat, Andrés Almansa |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement du signal et des images |
Date : | Soutenance le 25/11/2019 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Office national d'études et recherches aérospatiales. Département Traitement de l’Information et Systèmes (DTIS) |
établissement opérateur d'inscription : Université Paris-Sud (1970-2019) | |
Jury : | Président / Présidente : Gabriele Facciolo |
Examinateurs / Examinatrices : Thierry Chateau, Christine Guillemot, Bertrand Le Saux, David Picard, Pauline Trouvé, Patrick Pérez | |
Rapporteurs / Rapporteuses : Thierry Chateau, Christine Guillemot |
Résumé
L'estimation de profondeur à partir d'une seule image est maintenant cruciale pour plusieurs applications, de la robotique à la réalité virtuelle. Les approches par apprentissage profond dans les tâches de vision par ordinateur telles que la reconnaissance et la classification d'objets ont également apporté des améliorations au domaine de l'estimation de profondeur. Dans cette thèse, nous développons des méthodes pour l'estimation en profondeur avec un réseau de neurones profond en explorant différents indices, tels que le flou de défocalisation et la sémantique. Nous menons également plusieures expériences pour comprendre la contribution de chaque indice à la performance du modèle et sa capacité de généralisation. Dans un premier temps, nous proposons un réseau de neurones convolutif efficace pour l'estimation de la profondeur ainsi qu'une stratégie d'entraînement basée sur les réseaux génératifs adversaires conditionnels. Notre méthode permet d'obtenir des performances parmis les meilleures sur les jeux de données standard. Ensuite, nous proposons d'explorer le flou de défocalisation, une information optique fondamentalement liée à la profondeur. Nous montrons que ces modèles sont capables d'apprendre et d'utiliser implicitement cette information pour améliorer les performances et dépasser les limitations connues des approches classiques d'estimation de la profondeur par flou de défocalisation. Nous construisons également une nouvelle base de données avec de vraies images focalisées et défocalisées que nous utilisons pour valider notre approche. Enfin, nous explorons l'utilisation de l'information sémantique, qui apporte une information contextuelle riche, en apprenant à la prédire conjointement avec la profondeur par une approache multi-tâche.