Thèse soutenue

FR
Auteur / Autrice : Zehua Fu
Direction : Mohsen Ardabilian
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/05/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École Centrale de Lyon (1857-....)
Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône)
Jury : Président / Présidente : Valérie Gouet-Brunet
Examinateurs / Examinatrices : Mohsen Ardabilian
Rapporteurs / Rapporteuses : Valérie Gouet-Brunet, Fabrice Mériaudeau

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Malgré des décennies d’amélioration depuis la première proposition de Barnard et Fischler, les approches d’appariement stéréo souffrent encore d’imprécision, notamment en présence d’occlusion, des conditions d’éclairage extrêmes et d’ambiguïté. Pour pallier ces imprécisions, de nombreuses méthodes, appelées mesures de confiance, ont été proposées permettant d’évaluer l’exactitude des appariements. Dans cette thèse, nous étudions les mesures de confiance de l’état de l’art et proposons deux mesures, à bases de réseaux neurones et d’apprentissage profond, permettant d’améliorer les performances de l’appariement stéréo. Une première approche proposée utilise des données multimodales comprenant la disparité initiale et des images RGB de référence. Cette architecture multimodale est par la suite améliorée en élargissant le champ d’activation efficace (Effective Receptive Field-ERF) permettant un apprentissage avec davantage d’informations contextuelles et conduisant ainsi à une meilleure détection d’erreur d’appariement. Évaluée sur les données de KITTI2012 et KITTI2015, notre approche multimodale a atteint les meilleures performances du moment. Comme seconde approche, un réseau de neurones récurrent (Recurrent Neural Network-RNN) est proposée afin de raffiner pas à pas le résultat de l’appariement. Les réseaux de neurones récurrents à portes incorporés (Gated Recurrent Unit-GRU), combinés avec notre réseau de confiance multimodal à convolution dilatée, utilisent les informations d’une étape pour guider le raffinement dans une étape suivante. À notre connaissance, il s’agit de la première approche de raffinement proposée basée sur un réseau de neurones récurrent. L’approche proposée est aisément applicable à différents réseaux de neurones convolutifs (Convolutional Neural Network-CNN) d’appariement stéréo afin de produire une solution, de bout en bout, efficace et précise. Les résultats expérimentaux prouvent des améliorations significatives à la fois sur la base stéréo KITTI 2012 et sur KITTI 2015.