Apprentissage des fonctionnalités avec contraintes temporelles/physiques
Auteur / Autrice : | Vaishnavi Kanagasabapathi |
Direction : | Cédric Demonceaux, Renato Martins, Gilles Simon |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/10/2024 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | SPIM - Sciences Physiques pour l'Ingénieur et Microtechniques |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Interdisciplinaire Carnot de Bourgogne |
Equipe de recherche : COMM - Conception, Optimisation & Modélisation en Mécanique | |
établissement de préparation : Université de Bourgogne (1970-....) |
Mots clés
Résumé
Vue d'ensemble et introduction Cette thèse de doctorat aborde le problème de l'apprentissage de caractéristiques visuelles sur des vidéos pour la compréhension de scènes. Nous voulons concevoir des stratégies capables de tirer parti de la cohérence temporelle et des contraintes physiques lorsqu'une séquence d'images est disponible. Nous nous intéressons notamment à la conception de stratégies pour l'estimation de points de fuite (VP) à partir d'une séquence d'images. Les points de fuite fournissent des informations utiles pour plusieurs problèmes de vision par ordinateur tels que l'étalonnage de la caméra, l'extraction de CAO ou de plans et l'estimation de la pose [1]. Pourtant, les techniques d'estimation des VP existantes sont souvent affectées par des problèmes de stabilité, où de légers changements dans les conditions d'observation d'une image entraînent des changements incohérents dans les positions estimées des VP. À notre connaissance, très peu de travaux ont abordé cette question - les auteurs de [2] ont utilisé une LSTM pour l'estimation de la ligne d'horizon cohérente dans le temps. Les propriétés physiques de la scène et la stabilité des structures existantes de la scène (par exemple, les plans) le long des images pourraient être utilisées pour améliorer l'estimation, plans) le long des images pourraient être utilisées pour améliorer l'estimation. Dans ce sens, nous Dans ce sens, nous visons à explorer les techniques d'apprentissage des caractéristiques avec des contraintes physiques (telles que les modèles neuronaux informés par la physique). modèles neuronaux informés par la physique (PINN) et les modèles adaptés à la vidéo [3,4]) afin d'améliorer la stabilité de l'estimation de la VP. d'améliorer la stabilité de l'estimation VP. L'une des principales motivations est de concevoir des algorithmes d'estimation VP équivariants aux changements de points de vue (homographie, régions planaires suivies) avec des contraintes physiques, telles que la prise en compte de l'homographie (rotation) de bout en bout [6].Un autre aspect important à étudier est la la caractérisation de la fiabilité des points de fuite et de ceux qui devraient être utilisés pour une tâche en aval telle que la localisation de la caméra. pour une tâche en aval telle que la localisation de la caméra. Objectifs de la recherche Le doctorant développera les trois activités principales résumées suivantes : ● Apprentissage de la représentation avec des contraintes physiques : Développer de nouvelles techniques d'apprentissage profond qui considèrent explicitement la variété géométrique de l'information visuelle, assurant une extraction robuste basée sur les plans en présence de transformations telles que les changements d'illumination et de point de vue. Nous intégrerons contraintes physiques dans le processus d'apprentissage afin d'améliorer la précision des régions segmentées/appariées, en utilisant par exemple les PINN [4,5]. ● Estimation du point de fuite à partir de vues multiples : Nous nous intéressons à l'ajout explicite d'images multiples pour améliorer la robustesse et la stabilité de l'estimation du point de fuite. ● Évaluation sur des applications réelles : Les stratégies d'estimation des points de fuite développées avec une cohérence temporelle seront évaluées dans des scénarios pratiques d'estimation de la pose (relocalisation) sous des lignes de base de caméras larges. Références [ 1 ] G. Simon, A. Fond and M.O. Berger. A Contrario Horizon-First Vanishing Point Detection Using Second-Order Grouping Laws. ECCV, 2018. [ 2 ] F. Kluger, H. Ackermann, M. Y. Yang and B. Rosenhahn. Temporally consistent horizon lines. IEEE International Conference on Robotics and Automation (ICRA), 2020. [ 3 ] A. Arnab, M. Dehghani, G. Heigold, C. Sun, M. Lučić, C. Schmid. ViViT: A Video Vision Transformer. International Conference on Computer Vision (ICCV), 2021. [ 4 ] N. Geneva and N. Zabaras.Transformers for modeling physical systems. Neural Networks, 2022. [ 5 ] C. Banerjee, K. Nguyen, C. Fookes, G. Karniadakis. Physics-Informed Computer Vision: A Review and Perspectives. arXiv 2023. [ 6 ] J. Levinson et al. An Analysis of SVD for Deep Rotation Estimation, NeurIPS 2021.