Complex dynamic scene analysis through multi-body motion segmentation : application to intelligent vehicles

par Hernán Gonzalez

Thèse de doctorat en Robotique

Sous la direction de Sergio Alberto Rodríguez Florez.

  • Titre traduit

    Analyse de scènes dynamiques complexes par segmentation de mouvement : application aux véhicules intelligents


  • Résumé

    Dans le contexte applicatif des Systèmes d'Aide à la Conduite et des Véhicules Autonomes (anglais ADAS), l'analyse de scène est un processus fondamental d'inférence duquel dépendent multiples fonctions d'asservissement et de prise de décision. Le résultat issu de l'analyse de scène permet une description fiable de l'environnement aux alentours du véhicule composée des objets statiques et dynamiques ainsi que des éléments de structure de la scène (e.g. route, espace navigable, marquage routier) et de la localisation du véhicule observateur (e.g. odométrie). Ces informations supportent les décisions et l'engagement d'actions des systèmes automatiques dans la navigation autonome et les manœuvres d'assistance à la conduite. Pour ce faire, les systèmes de perception sont conçus afin de fournir des observations de la scène redondantes et fiables. Dans le cadre de cette thèse nous nous intéressons à la segmentation d'une scène dynamique en utilisant des images issues d'un système de vision monoculaire. Dans un premier temps, une étude bibliographique des approches de l'état de l'art est présentée en contrastant les avantages et les limites des méthodes suivant des indicateurs de performance et de temps de calcul. Cela a permis la sélection d'une méthodologie récente basée vision servant de référence pour la segmentation de mouvement. Parallèlement, une étude approfondie des pré-traitements nécessaires à l'estimation du flot optique a aussi été menée. Cette première étape est clore par une implantation algorithmique pour la l'identification et la formalisation des contributions adressant les limites de l'état de l'art. Dans la deuxième étape de ce travail, nous proposons un algorithme de segmentation de mouvement basée image. Les notions et les méthodes introduites font appel à la technique du Suivi-avant-Detection (anglais Track-before-Detect) en couplage serré aux méthodes de calcul de la structure et du mouvement (anglais Structure from Motion). La méthode dénommée TbD-SfM a pour objectif la réduction de la complexité dans l'analyse de la scène intégrant un modèle de mouvement générique à 6 dégrées de liberté. Et cela en préservant la densité de caractéristiques suivies sur les mouvements observés. Plus tard, nous proposons une variante accélérée de l'algorithme TbD-SfM dénommée ETbD-SfM qui limite efficacement la complexité de la segmentation par rapport au nombre de mouvements observés dans la scène. L'ensemble des contributions a été évalué en utilisant différentes bases de données publiques reconnues dans le domaine des Transports Intelligents. Nous avons étudié les algorithmes TbD-SfM et ETbD-SfM avec le dataset Hopkins dans de conditions idéales : sans erreurs de suivi de caractéristiques et faible vitesse. Le dataset KITTI permit de vérifier la robustesse de l'approche et d'évaluer leur performance dans des scénarios incluant multiples objets en mouvement. Pour conclure, les résultats expérimentaux démontrent que les méthodes TbD-SfM et ETbD-SfM effectuent la segmentation d'une scène dynamique en utilisant un modèle à 6 dégrés de liberté obtenant une faible erreur de ré-projection tout en préservant la densité de caractéristiques essentiel au suivi de mouvement. La géométrie de la scène 3D calculée en estimant le facteur d'échelle est comparée et analysée aux trajectoires 3D des objets référencés dans la scène.


  • Résumé

    In the context of Advanced Driver Assistance Systems (ADAS) and Autonomous Vehicles, scene understanding is a fundamental inference process in which several servoing and decision making functions depends on. Such a process is intended to retrieve reliable information about the vehicle's surroundings including static and dynamic objects (e.g. obstacles, pedestrians, vehicles), the scene structure (e.g. road, navigable space, lane markings) and ego-localization (e.g. odometry). All this information is essential to make crucial decisions in autonomous navigation and assistance maneuvers. To this end, single or multiple perception systems are designed to provide redundant and reliable observations of the scene. This thesis is devoted and focused on image-based multi-body motion segmentation of dynamic scenes using monocular vision systems. The conducted research starts by surveying methods of the state-of-the-art and contrasting their advantages and drawbacks in terms of performance indicators and computation time. After identifying a recent vision-based methodology, sparse optical flow required pre-processes are studied. As a concept-proof, an algorithm implementation shows, in practice, limits of the addressed approach leading to envision and formalize our contributions. Detecting and tracking objects in a classic processing chain may lead to low-performance and time-consuming solutions. Instead of segmenting moving objects and tracking them independently, a Track-before-Detect framework for a multi-body motion segmentation (namely TbD-SfM) was proposed. This method relies detection and tracking on a tightly coupled strategy intended to reduce the complexity of an existing Multi-body Structure from Motion approach. Efforts were also devoted for reducing the computational cost without introducing any kinematic model constraints and for preserving features density on observed motions. Further, an accelerated implementation variant of TbD (namely ETbD-SfM) was also proposed in order to limit the complexity increasing with respect to the number of observed motions. The proposed methods were extensively tested with different publicly available datasets such as Hopkins155 and KITTI. Hopkins dataset allows a comparison under feature-tracking ideal conditions since the dataset includes referenced optical flow. KITTI provides image sequences under real conditions in order to evaluate robustness of the method. Results on scenarios including the presence of multiple and simultaneous moving objects observed from a moving camera are analyzed and discussed. In conclusion, the obtained results show that TbD-SfM and ETbD-SfM methods can segment dynamic objects using a 6DoF motion model, achieving a low image segmentation error without increasing of computational cost and preserving the density of the feature points. Additionally, the 3D scene geometry and trajectories are provided by estimating scale on the monocular system and comparing these results to referenced object trajectories.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.