Classification et mise à jour de données d'usage du sol : une approche multi-source et multi-modale par apprentissage automatique
| Auteur / Autrice : | Martin Cubaud |
| Direction : | Ana-Maria Olteanu raimond |
| Type : | Projet de thèse |
| Discipline(s) : | Sciences et Technologies de l'Information Géographique |
| Date : | Inscription en doctorat le 15/09/2022 |
| Etablissement(s) : | Université Gustave Eiffel |
| Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication |
| Partenaire(s) de recherche : | Laboratoire : LASTIG -Laboratoire en Sciences et Technologies de l'Information Géographique |
Mots clés
Résumé
Une cartographie précise de l'usage du sol (US) joue un rôle clé, avec celle de la couverture du sol (CS) dans l'analyse des dynamiques des activités humaines sur un territoire donné et dans l'évaluation de leurs conséquences environnementales. Bien qu'il soit maintenant possible de classifier avec précision la CS et dans une moindre mesure d'en détecter les changements à partir d'images de télédétection, la classification de l'US reste difficile car elle nécessite des informations socio-économiques qui ne sont pas observables dans ces images. De plus, la détection des changements d'US est encore plus complexe et n'a été encore que peu étudiée dans la recherche actuelle. Cette thèse cherche donc à combler ces deux manques, afin de produire et de mettre à jour des données d'US de qualité à échelle locale. Ses deux objectifs principaux sont la classification automatique de l'US et la détection de ses changements, à travers une approche d'apprentissage automatique vectorielle, multisource et multimodale. En effet, notre hypothèse de recherche est que plusieurs sources de données (incluant des cartes de CS, des bases de données topographiques faisant autorité ou issues de l'information géographique volontaire (VGI), des orthophotographies aériennes à haute résolution, des données cadastrales, des statistiques sociodémographiques, ainsi que la géométrie des polygones) contiennent de l'information en lien avec l'US qui peut être extraite et utilisée par des modèles d'apprentissage automatique pour attribuer une unique classe d'usage à chaque unité cartographique, correspondant à des polygones pré-construits. Pour atteindre notre premier objectif de recherche, à savoir la classification des US, nous proposons un processus qui d'abord transforme chaque source de données d'entrée en plusieurs attributs descriptifs calculés pour chaque unité de cartographie. L'US des polygones est ensuite classifiée à l'aide d'un processus d'apprentissage automatique reposant sur le modèle XGBoost. Les expériences ont été conduites sur la couche US de la base de données française OCS GE, dont la nomenclature de 19 classes est conforme à INSPIRE. La méthode proposée a été validée sur plusieurs zones d'étude, les départements de l'Essonne, du Gers et du Rhône, chacune atteignant un score F1 moyen entre à 82% et 86% et une OA entre 88% et 94%. La transférabilité du modèle entre ces zones a aussi été examinée afin d'évaluer sa robustesse et son adaptabilité dans des contextes géographiques variés. Le second objectif, la détection des changements d'US, est abordé à l'aide d'un second modèle d'apprentissage automatique, appliqué aux attributs dérivés de deux dates. Plusieurs modèles (XGBoost, réseaux de neurones) et architectures (fusion précoce ou tardive, post classification) ont été comparées. Cependant, nos premiers résultats (un F1 score maximal de 50% pour la classe changement) montre que cette tâche demeure difficile, et ouvrent de nouvelles perspectives de recherche pour mieux prendre en compte le fort déséquilibre entre les classes et la nature hétérogène des changements dans les différentes sources de données. Enfin, une contribution importante de la thèse est l'étude de l'interprétabilité des méthodes proposées, en utilisant les valeurs SHAP (SHapley Additive exPlanations) pour fournir des éclairages sur le fonctionnement des modèles et sur l'influence et l'importance relative des sources de données et des attributs. Dans l'ensemble, ce travail met en évidence à la fois le potentiel et les limites des approches d'apprentissage automatique pour la classification et la détection des changements d'US. Il souligne l'importance de l'intégration de sources de données multiples pour une cartographie efficace de l'US, offrant ainsi une base solide pour de futures recherches et applications dans ce domaine.