Confidence measures in deep neural network based stereo matching
Auteur / Autrice : | Zehua Fu |
Direction : | Mohsen Ardabilian |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 28/05/2020 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : École Centrale de Lyon (1857-....) |
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) | |
Jury : | Président / Présidente : Valérie Gouet-Brunet |
Examinateurs / Examinatrices : Mohsen Ardabilian | |
Rapporteur / Rapporteuse : Valérie Gouet-Brunet, Fabrice Mériaudeau |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Malgré des décennies d’amélioration depuis la première proposition de Barnard et Fischler, les approches d’appariement stéréo souffrent encore d’imprécision, notamment en présence d’occlusion, des conditions d’éclairage extrêmes et d’ambiguïté. Pour pallier ces imprécisions, de nombreuses méthodes, appelées mesures de confiance, ont été proposées permettant d’évaluer l’exactitude des appariements. Dans cette thèse, nous étudions les mesures de confiance de l’état de l’art et proposons deux mesures, à bases de réseaux neurones et d’apprentissage profond, permettant d’améliorer les performances de l’appariement stéréo. Une première approche proposée utilise des données multimodales comprenant la disparité initiale et des images RGB de référence. Cette architecture multimodale est par la suite améliorée en élargissant le champ d’activation efficace (Effective Receptive Field-ERF) permettant un apprentissage avec davantage d’informations contextuelles et conduisant ainsi à une meilleure détection d’erreur d’appariement. Évaluée sur les données de KITTI2012 et KITTI2015, notre approche multimodale a atteint les meilleures performances du moment. Comme seconde approche, un réseau de neurones récurrent (Recurrent Neural Network-RNN) est proposée afin de raffiner pas à pas le résultat de l’appariement. Les réseaux de neurones récurrents à portes incorporés (Gated Recurrent Unit-GRU), combinés avec notre réseau de confiance multimodal à convolution dilatée, utilisent les informations d’une étape pour guider le raffinement dans une étape suivante. À notre connaissance, il s’agit de la première approche de raffinement proposée basée sur un réseau de neurones récurrent. L’approche proposée est aisément applicable à différents réseaux de neurones convolutifs (Convolutional Neural Network-CNN) d’appariement stéréo afin de produire une solution, de bout en bout, efficace et précise. Les résultats expérimentaux prouvent des améliorations significatives à la fois sur la base stéréo KITTI 2012 et sur KITTI 2015.