Thèse soutenue

SLAM Dynamique Auto-Supervisé : Résolution des Inversions de Consensus

FR  |  
EN
Auteur / Autrice : Adrian Bojko
Direction : Hervé Le BorgneRomain DupontMohamed Tamaazousti
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/04/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Laboratoire : Laboratoire d'intégration des systèmes et des technologies (Gif-sur-Yvette, Essonne ; 2001-....)
Jury : Président / Présidente : Catherine Achard
Examinateurs / Examinatrices : David Filliat, Samia Ainouz
Rapporteurs / Rapporteuses : David Filliat, Samia Ainouz

Résumé

FR  |  
EN

La capacité d'auto-localisation est essentielle pour les véhicules autonomes, les robots, la réalité mixte et plus généralement les systèmes qui interagissent avec leur environnement. Lorsqu’il n’y a pas de carte disponible, les algorithmes de SLAM (Localisation et Cartographie Simultanées) créent une carte de l'environnement et en même temps y localisent le système. Un capteur populaire est la caméra, qui a l'avantage de fournir passivement une représentation visuelle de l'environnement à faible coût, et donc celui que nous utilisons.Le SLAM en environnement dynamique, ou SLAM Dynamique, est un défi car l'algorithme doit être capable de percevoir en permanence quelles parties de l'image sont fixes par rapport au référentiel souhaité par l'utilisateur, en général le sol. Des problèmes surviennent lorsque les hypothèses sur lesquelles reposent les algorithmes SLAM deviennent invalides. Un cas remarquable est l'inversion de consensus de mouvement : lorsque la majeure partie d'une image est constituée d'objets en mouvement, l'algorithme n'utilise pas le bon référentiel, et échoue. Un autre est le masquage excessif : certains algorithmes SLAM retirent des images -- c'est-à-dire masquent -- tous les objets qui pourraient être dynamiques même s'ils ne sont pas en mouvement, et par conséquent échouent si les images deviennent vides.De façon générale, l'utilisateur peut vouloir utiliser un algorithme SLAM dans un contexte non supporté. En réalité, l'écart entre ce dont l'utilisateur a besoin et ce que font les algorithmes SLAM est significatif dans la recherche SLAM et la cause de problèmes tels que les inversions de consensus, elles-mêmes rarement présentes dans la littérature. Ainsi, au lieu de proposer un SLAM plus général, nous proposons un algorithme SLAM qui s'adapte à de nouveaux environnements grâce à un apprentissage auto-supervisé automatisé : apprendre automatiquement quelles parties d'une scène peuvent être mobiles par rapport au référentiel souhaité par l'utilisateur, et quand elles sont fixées ou non. L'utilisateur fournit des vidéos d’entraînement non annotées et notre algorithme apprend automatiquement ce qu'il faut en faire.Nous présentons d’abord l'état de l'art, les bases de données et les métriques SLAM de référence. En particulier, nous détaillons les défis du SLAM Dynamique et de l'évaluation de la robustesse. Les bases de données et métriques SLAM actuelles font partie des points bloquants, nous proposons donc les nôtres. Dans une deuxième partie, nous explorons les relations entre les points d’intérêt d’une image et les performances du SLAM, et à partir de ce travail, nous présentons un nouvel algorithme de SLAM Dynamique auto-supervisé qui apprend quels objets masquer, en utilisant les outliers SLAM. Les outliers SLAM sont des points d’intérêt rejetés au cours du processus de SLAM : nous avons observé que les outliers sur les objets en mouvement ont des propriétés uniques dans des séquences vidéo faciles et peuvent être utilisés pour apprendre automatiquement à segmenter les objets dynamiques. Enfin, nous présentons une approche auto-supervisée qui apprend quand masquer des objets : SLAM Dynamique avec Masquage Temporel. A partir d'une méthode donnée de masquage d’objet, on apprend automatiquement quand masquer les objets de certaines classes. On annote automatiquement chaque image des séquences d’entraînement avec des décisions de masquage (masquer les objets ou non), puis on apprend les circonstances qui ont mené à ces décisions avec un réseau basé mémoire.Les résultats de cette thèse montrent que le SLAM Dynamique auto-supervisé est une approche viable pour résoudre les inversions de consensus de mouvement. Plus généralement, l'auto-supervision est la clé pour qu'un SLAM s'adapte aux besoins des utilisateurs. Nous avons dépassé l'Etat de l'Art en termes de robustesse, en plus de clarifier des points aveugles de la littérature en termes d’évaluation de la robustesse des algorithmes de SLAM Dynamique.