Localisation d'objets urbains à partir de sources multiples dont des images aériennes

par Lionel Pibre

Thèse de doctorat en Informatique

Sous la direction de Marc Chaumont.


  • Résumé

    Cette thèse aborde des problèmes liés à la localisation et la reconnaissance d'objets urbains dans des images multi-sources (optique, infrarouge, Modèle Numérique de Surface) de très haute précision acquises par voie aérienne. Les objets urbains (lampadaires, poteaux, voitures, arbres…) présentent des dimensions, des formes, des textures et des couleurs très variables. Ils peuvent être collés les uns les autres et sont de petite taille par rapport à la dimension d'une image. Ils sont présents en grand nombre mais peuvent être partiellement occultés. Tout ceci rend les objets urbains difficilement identifiables par les techniques actuelles de traitement d'images. Dans un premier temps, nous avons comparé les approches d'apprentissage classiques, composées de deux étapes - extraction de caractéristiques par le biais d'un descripteur prédéfini et utilisation d'un classifieur - aux approches d'apprentissage profond (Deep Learning), et plus précisément aux réseaux de neurones convolutionnels (CNN). Les CNN donnent de meilleurs résultats mais leurs performances ne sont pas suffisantes pour une utilisation industrielle. Nous avons donc proposé deux améliorations. Notre première contribution consiste à combiner de manière efficace les données provenant de sources différentes. Nous avons comparé une approche naïve qui consiste à considérer toutes les sources comme des composantes d'une image multidimensionnelle à une approche qui réalise la fusion des informations au sein même du CNN. Pour cela, nous avons traité les différentes informations dans des branches séparées du CNN. Nous avons ainsi montré que lorsque la base d'apprentissage contient peu de données, combiner intelligemment les sources dans une phase de pré-traitement (nous combinons l'optique et l'infrarouge pour créer une image NDVI) avant de les donner au CNN améliore les performances. Pour notre seconde contribution, nous nous sommes concentrés sur le problème des données incomplètes. Jusque-là, nous considérions que nous avions accès à toutes les sources pour chaque image mais nous pouvons aussi nous placer dans le cas où une source n'est pas disponible ou utilisable pour une image. Nous avons proposé une architecture permettant de prendre en compte toutes les données, même lorsqu'il manque une source sur une ou plusieurs images. Nous avons évalué notre architecture et montré que sur un scénario d'enrichissement, cette architecture permet d'obtenir un gain de plus de 2% sur la F-mesure. Les méthodes proposées ont été testées sur une base de données publique. Elles ont pour objectif d'être intégrées dans un logiciel de la société Berger-Levrault afin d'enrichir les bases de données géographiques et ainsi faciliter la gestion du territoire par les collectivités locales.

  • Titre traduit

    Localization of urban objects from multiple sources, including aerial imagery


  • Résumé

    This thesis addresses problems related to the location and recognition of urban objects in multi-source images (optical, infrared, terrain model) of very high precision acquired by air. Urban objects (lamp posts, poles, car, tree...) have dimensions, shapes, textures and very variable colors. They can be glued to each other and are small with respect to the size of an image. They are present in large numbers but can be partially hidden. All this makes urban objects difficult to identify with current image processing techniques. First, we compared traditional learning approaches, consisting of two stages - extracting features through a predefined descriptor and using a classifier - to deep learning approaches and more precisely Convolutional Neural Networks (CNN). CNNs give better results but their performances are not sufficient for industrial use. We therefore proposed two contributions to increase performance. The first is to efficiently combine data from different sources. We compared a naive approach that considers all sources as components of a multidimensional image to an approach that merges information within CNN itself. For this, we have processed the different information in separate branches of the CNN. For our second contribution, we focused on the problem of incomplete data. Until then, we considered that we had access to all the sources for each image but we can also place ourselves in the case where a source is not available or usable. We have proposed an architecture to take into account all the data, even when a source is missing in one or more images. We evaluated our architecture and showed that on an enrichment scenario, it allows to have a gain of more than 2% on the F-measure. The proposed methods were tested on a public database. They aim to be integrated into a Berger-Levrault company software in order to enrich geographic databases and thus facilitate the management of the territory by local authorities.