Module d'attention sensible à la profondeur pour l'analyse de scènes
Auteur / Autrice : | Zongwei Wu |
Direction : | Cédric Demonceaux, Christophe Stolz |
Type : | Thèse de doctorat |
Discipline(s) : | Instrumentation et informatique de l'image |
Date : | Soutenance le 21/11/2022 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....) |
Partenaire(s) de recherche : | Laboratoire : Imagerie et Vision Artificielle (ImVia) (Dijon) |
Etablissement de préparation : Université de Bourgogne (1970-....) | |
Jury : | Président / Présidente : Liming Chen |
Examinateurs / Examinatrices : Guillaume Allibert, David Picard | |
Rapporteurs / Rapporteuses : Christian Wolf, Nicolas Thome |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les modèles d'apprentissage profond peuvent aujourd'hui faire apprendre une machine à réaliser un certain nombre de tâches, même avec une meilleure précision que les êtres humains. Parmi toutes les applications, la perception est la partie la plus essentielle sans laquelle tous les autres modules d'action ont des difficultés à réaliser en toute sécurité et avec précision la tâche ciblée dans des scènes complexes. Habituellement, les systèmes de perception sont basés sur des images RGB qui fournissent des informations de texture sur la scène 3D. Cependant, la qualité des images RGB dépend fortement des facteurs environnementaux, qui influencent davantage les performances des modèles d'apprentissage. Par conséquent, dans cette thèse, nous visons à améliorer les performances et la robustesse des modèles RGB avec des information complémentatire venant de la profondeur (D) en proposant de nouvelles modules de fusion RGB-D.Traditionnellement, la concaténation pixel par pixel avec addition et convolution est l'approche largement appliquée pour la fusion RGB-D. Inspirés par le succès des modules d'attention dans les réseaux neurones, dans cette thèse, nous analysons et proposons différents modules d'attention sensibles à la profondeur et démontrons notre efficacité dans des tâches de segmentation telles que la détection de saillance et la segmentation sémantique. Tout d'abord, nous proposons une nouvelle attention sur les cannaux (channel attention). Nous fusionnons les détails fins et les indices sémantiques pour concertrer l'attention dans diverses régions locales, améliorant la discriminabilité du modèle lors de l'extraction des caractéristiques. Deuxièmement, nous étudions le décalage adapté à la profondeur qui sert d'attention spatiale locale mais déformable pour la convolution. Notre approche oblige les réseaux à prendre en compte des pixels plus pertinents à l'aide de la profondeur. Troisièmement, nous améliorons la prise de conscience contextualisée au sein de la fusion RGB-D en tirant parti de l'attention des transformers. Nous montrons que l'attention du transformer peut améliorer la robustesse du modèle contre le désalignement des caractéristiques. Enfin, nous nous concentrons sur l'architecture de fusion en proposant une conception de fusion adaptative. Nous apprenons le compromis entre la fusion précoce et tardive (early and late fusion) en ce qui concerne la qualité de la profondeur, ce qui donne une manière plus robuste de fusionner les signaux RGB-D pour les réseaux profonds. Des comparaisons approfondies sur les benchmarks de référence valident l'efficacité de nos méthodes proposées par rapport à d'autres alternatives de fusion.