Thèse soutenue

Localisation d'objets urbains à partir de sources multiples dont des images aériennes

FR  |  
EN
Auteur / Autrice : Lionel Pibre
Direction : Marc Chaumont
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/11/2018
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Jérôme Azé
Examinateurs / Examinatrices : Marc Chaumont, Jérôme Azé, Sébastien Lefèvre, Jenny Benois Pineau, Gérard Subsol, Dino Ienco, Josiane Zerubia, Georges Quénot
Rapporteur / Rapporteuse : Sébastien Lefèvre, Jenny Benois Pineau

Résumé

FR  |  
EN

Cette thèse aborde des problèmes liés à la localisation et la reconnaissance d’objets urbains dans des images multi-sources (optique, infrarouge, Modèle Numérique de Surface) de très haute précision acquises par voie aérienne.Les objets urbains (lampadaires, poteaux, voitures, arbres…) présentent des dimensions, des formes, des textures et des couleurs très variables. Ils peuvent être collés les uns les autres et sont de petite taille par rapport à la dimension d’une image. Ils sont présents en grand nombre mais peuvent être partiellement occultés. Tout ceci rend les objets urbains difficilement identifiables par les techniques actuelles de traitement d’images.Dans un premier temps, nous avons comparé les approches d’apprentissage classiques, composées de deux étapes - extraction de caractéristiques par le biais d’un descripteur prédéfini et utilisation d’un classifieur - aux approches d’apprentissage profond (Deep Learning), et plus précisément aux réseaux de neurones convolutionnels (CNN). Les CNN donnent de meilleurs résultats mais leurs performances ne sont pas suffisantes pour une utilisation industrielle. Nous avons donc proposé deux améliorations.Notre première contribution consiste à combiner de manière efficace les données provenant de sources différentes. Nous avons comparé une approche naïve qui consiste à considérer toutes les sources comme des composantes d’une image multidimensionnelle à une approche qui réalise la fusion des informations au sein même du CNN. Pour cela, nous avons traité les différentes informations dans des branches séparées du CNN. Nous avons ainsi montré que lorsque la base d’apprentissage contient peu de données, combiner intelligemment les sources dans une phase de pré-traitement (nous combinons l'optique et l'infrarouge pour créer une image NDVI) avant de les donner au CNN améliore les performances.Pour notre seconde contribution, nous nous sommes concentrés sur le problème des données incomplètes. Jusque-là, nous considérions que nous avions accès à toutes les sources pour chaque image mais nous pouvons aussi nous placer dans le cas où une source n’est pas disponible ou utilisable pour une image. Nous avons proposé une architecture permettant de prendre en compte toutes les données, même lorsqu’il manque une source sur une ou plusieurs images. Nous avons évalué notre architecture et montré que sur un scénario d’enrichissement, cette architecture permet d'obtenir un gain de plus de 2% sur la F-mesure.Les méthodes proposées ont été testées sur une base de données publique. Elles ont pour objectif d’être intégrées dans un logiciel de la société Berger-Levrault afin d’enrichir les bases de données géographiques et ainsi faciliter la gestion du territoire par les collectivités locales.