Thèse soutenue

Apprentissage de profondeur par flou de défocalisation : les réseaux de neurones pour l'estimation de la profondeur mono-image

FR  |  
EN
Auteur / Autrice : Marcela Pinheiro de Carvalho
Direction : Frédéric ChampagnatAndrés Almansa
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 25/11/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Office national d'études et recherches aérospatiales. Département Traitement de l’Information et Systèmes (DTIS)
établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Jury : Président / Présidente : Gabriele Facciolo
Examinateurs / Examinatrices : Thierry Chateau, Christine Guillemot, Bertrand Le Saux, David Picard, Pauline Trouvé, Patrick Pérez
Rapporteurs / Rapporteuses : Thierry Chateau, Christine Guillemot

Résumé

FR  |  
EN

L'estimation de profondeur à partir d'une seule image est maintenant cruciale pour plusieurs applications, de la robotique à la réalité virtuelle. Les approches par apprentissage profond dans les tâches de vision par ordinateur telles que la reconnaissance et la classification d'objets ont également apporté des améliorations au domaine de l'estimation de profondeur. Dans cette thèse, nous développons des méthodes pour l'estimation en profondeur avec un réseau de neurones profond en explorant différents indices, tels que le flou de défocalisation et la sémantique. Nous menons également plusieures expériences pour comprendre la contribution de chaque indice à la performance du modèle et sa capacité de généralisation. Dans un premier temps, nous proposons un réseau de neurones convolutif efficace pour l'estimation de la profondeur ainsi qu'une stratégie d'entraînement basée sur les réseaux génératifs adversaires conditionnels. Notre méthode permet d'obtenir des performances parmis les meilleures sur les jeux de données standard. Ensuite, nous proposons d'explorer le flou de défocalisation, une information optique fondamentalement liée à la profondeur. Nous montrons que ces modèles sont capables d'apprendre et d'utiliser implicitement cette information pour améliorer les performances et dépasser les limitations connues des approches classiques d'estimation de la profondeur par flou de défocalisation. Nous construisons également une nouvelle base de données avec de vraies images focalisées et défocalisées que nous utilisons pour valider notre approche. Enfin, nous explorons l'utilisation de l'information sémantique, qui apporte une information contextuelle riche, en apprenant à la prédire conjointement avec la profondeur par une approache multi-tâche.