Thèse soutenue

Apprentissage auto-supervisé de représentations centrées sur les objets avec détection et segmentation multi-objets

FR  |  
EN
Auteur / Autrice : Bruno Sauvalle
Direction : Arnaud De la fortelle
Type : Thèse de doctorat
Discipline(s) : Informatique temps réel, robotique et automatique - Paris
Date : Soutenance le 08/02/2023
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique
Partenaire(s) de recherche : établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Laboratoire : Centre de robotique (Paris)
Jury : Président / Présidente : Vincent Lepetit
Examinateurs / Examinatrices : Arnaud De la fortelle, Vincent Lepetit, Marc Van Droogenbroeck, Mathieu Salzmann, Matthieu Cord, Émilie Wirbel, Fabien Moutarde
Rapporteurs / Rapporteuses : Marc Van Droogenbroeck, Mathieu Salzmann

Résumé

FR  |  
EN

L’objectif de cette thèse est d’étudier comment les techniques d’apprentissage profond, c’est-à-dire la descente de gradient stochastique et les réseaux de neurones, peuvent être utilisées pour obtenir une représentation interprétable d’une scène sans nécessiter de jeu de données annotées. Afin d’obtenir une telle représentation, nous considérons qu’une scène est composée d’un arrière-plan et de divers objets apparaissant en avant-plan. Nous devons donc non seulement être capable de distinguer l’arrière-plan de ces différents objets, mais aussi de séparer ces objets, qui peuvent se toucher ou s’occulter entre eux. Nous étudions d’abord la tâche de reconstruction d’arrière-plan fixe, dont le but est de construire une image unique de l’arrière-plan d’une scène à l’aide d’une courte séquence d’images de cette scène encombrée par divers objets. Nous considérons cette tâche comme un problème d’estimation robuste, proposons une nouvelle technique appelée bootstrap d’arrière-plan, qui utilise la descente de gradient stochastique, et montrons qu’elle est plus précise et considérablement plus rapide que les meilleures méthodes existantes. Nous considérons ensuite la tâche de reconstruction d’arrière-plan dynamique et de segmentation d’arrière-plan/avant-plan. À partir de l’hypothèse selon laquelle les arrière-plans des images apparaissant dans une vidéo ou un jeu de données sont situés sur une variété de petite dimension, nous sommes en mesure d’apprendre cette variété à l’aide d’un autoencodeur convolutionnel. Afin d’améliorer les résultats de segmentation, nous adaptons l’autoencodeur pour prédire le bruit d’arrière-plan, qui peut être causé par la turbulence ou les mouvements des arbres ou de l’eau. Nous montrons ensuite que le modèle proposé donne de meilleurs résultats que les meilleures méthodes non supervisées existantes sur les exigeants benchmarks CDnet et LASIESTA. La segmentation de l’arrière-plan est une première étape pour comprendre la structure d’une scène, mais elle ne permet pas d’identifier et de segmenter les divers objets apparaissant dans une scène. Afin d’obtenir une représentation véritablement centrée sur les objets d’une scène, nous introduisons une nouvelle architecture pour l’apprentissage non supervisé de représentations centrées sur les objets, qui utilise l’attention et le soft-argmax pour localiser chaque objet et un transformer encodeur pour gérer les occlusions et éviter les doubles détections. Nous montrons ensuite que cette architecture est considérablement plus précise que l’état de l’art sur les benchmarks synthétiques existants et fournissons quelques exemples d’applications à des images réelles prises par des caméras de circulation.