Thèse soutenue

Module d'attention sensible à la profondeur pour l'analyse de scènes

FR  |  
EN
Auteur / Autrice : Zongwei Wu
Direction : Cédric DemonceauxChristophe Stolz
Type : Thèse de doctorat
Discipline(s) : Instrumentation et informatique de l'image
Date : Soutenance le 21/11/2022
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Imagerie et Vision Artificielle (ImVia) (Dijon)
Etablissement de préparation : Université de Bourgogne (1970-....)
Jury : Président / Présidente : Liming Chen
Examinateurs / Examinatrices : Guillaume Allibert, David Picard
Rapporteurs / Rapporteuses : Christian Wolf, Nicolas Thome

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Les modèles d'apprentissage profond peuvent aujourd'hui faire apprendre une machine à réaliser un certain nombre de tâches, même avec une meilleure précision que les êtres humains. Parmi toutes les applications, la perception est la partie la plus essentielle sans laquelle tous les autres modules d'action ont des difficultés à réaliser en toute sécurité et avec précision la tâche ciblée dans des scènes complexes. Habituellement, les systèmes de perception sont basés sur des images RGB qui fournissent des informations de texture sur la scène 3D. Cependant, la qualité des images RGB dépend fortement des facteurs environnementaux, qui influencent davantage les performances des modèles d'apprentissage. Par conséquent, dans cette thèse, nous visons à améliorer les performances et la robustesse des modèles RGB avec des information complémentatire venant de la profondeur (D) en proposant de nouvelles modules de fusion RGB-D.Traditionnellement, la concaténation pixel par pixel avec addition et convolution est l'approche largement appliquée pour la fusion RGB-D. Inspirés par le succès des modules d'attention dans les réseaux neurones, dans cette thèse, nous analysons et proposons différents modules d'attention sensibles à la profondeur et démontrons notre efficacité dans des tâches de segmentation telles que la détection de saillance et la segmentation sémantique. Tout d'abord, nous proposons une nouvelle attention sur les cannaux (channel attention). Nous fusionnons les détails fins et les indices sémantiques pour concertrer l'attention dans diverses régions locales, améliorant la discriminabilité du modèle lors de l'extraction des caractéristiques. Deuxièmement, nous étudions le décalage adapté à la profondeur qui sert d'attention spatiale locale mais déformable pour la convolution. Notre approche oblige les réseaux à prendre en compte des pixels plus pertinents à l'aide de la profondeur. Troisièmement, nous améliorons la prise de conscience contextualisée au sein de la fusion RGB-D en tirant parti de l'attention des transformers. Nous montrons que l'attention du transformer peut améliorer la robustesse du modèle contre le désalignement des caractéristiques. Enfin, nous nous concentrons sur l'architecture de fusion en proposant une conception de fusion adaptative. Nous apprenons le compromis entre la fusion précoce et tardive (early and late fusion) en ce qui concerne la qualité de la profondeur, ce qui donne une manière plus robuste de fusionner les signaux RGB-D pour les réseaux profonds. Des comparaisons approfondies sur les benchmarks de référence valident l'efficacité de nos méthodes proposées par rapport à d'autres alternatives de fusion.