Intelligence artificielle appliquée aux séries temporelles d'images satellites pour la surveillance des écosystèmes
| Auteur / Autrice : | Valentine Bellet |
| Direction : | Jordi Inglada, Mathieu Fauvel |
| Type : | Thèse de doctorat |
| Discipline(s) : | Surfaces et interfaces continentales, Hydrologie |
| Date : | Soutenance le 29/02/2024 |
| Etablissement(s) : | Université de Toulouse (2023-....) |
| Ecole(s) doctorale(s) : | École doctorale Sciences de l’univers, de l’environnement et de l’espace (Toulouse) |
| Partenaire(s) de recherche : | Laboratoire : Centre d'études spatiales de la biosphère (Toulouse ; 2001-....) |
| Etablissement de délivrance conjointe : Université Toulouse 3 Paul Sabatier (1969-2024) | |
| Jury : | Président / Présidente : Marie Chabert |
| Examinateurs / Examinatrices : Anne Puissant, Charlotte Pelletier | |
| Rapporteurs / Rapporteuses : Francesca Bovolo, Dino Ienco |
Résumé
Dans un contexte de changement climatique, la surveillance des écosystèmes est une mission essentielle. En effet, cela permet de mieux comprendre les changements qui peuvent affecter les écosystèmes mais aussi de prendre des décisions en conséquence afin de préserver les générations actuelles et futures. Les cartes d'occupations du sol sont un outil indispensable en fournissant des informations sur les différents types de couverture physique de la surface de la Terre (e.g. forêts, prairies, terres agricoles). Actuellement, un nombre accru de missions satellites fournissent un volume important de données gratuites et librement accessibles. Les séries temporelles d'images satellites (SITS), dont celles de Sentinel-2, notamment grâce à leurs très hautes résolutions, informent sur la dynamique de la végétation. Des algorithmes d'apprentissage automatique permettent de produire de manière fréquente et régulière des cartes d'occupations du sol à partir de SITS. L'objectif de cette thèse est le développement d'algorithmes de classification supervisée pour la production de cartes d'occupations du sol à grande échelle. Dans un contexte opérationnel, quatre principaux défis se dégagent. Le premier concerne le volume important de données que les algorithmes doivent être capables de gérer. Le second est lié à la prise en compte des corrélations entre les variables spectro-temporelles et leur extraction pour la classification. Le troisième, quant à lui, correspond à la prise en compte de la variabilité spatiale: dans des zones géographiques étendues, la donnée n'est pas stationnaire. Enfin, le quatrième défi concerne l'utilisation de SITS irrégulièrement échantillonnées et non alignées, principalement du aux conditions météorologiques (e.g. nuages) ou à des dates d'acquisitions différentes entre deux orbites. Cette thèse est divisée en deux contributions principales. La première contribution concerne la mise en place de processus gaussiens stochastiques variationnels (SVGP) pour des SITS à grande échelle. Des millions d'échantillons peuvent être utilisés pour l'apprentissage, au lieu de quelques milliers pour les processus gaussiens (GP) traditionnels. Des combinaisons de fonctions de covariances ont été mis en place permettant notamment de prendre en compte l'information spatiale et d'être plus robuste vis à vis de la variabilité spatiale. Cependant, les SITS sont ré-échantillonnés linéairement indépendamment de la tâche de classification. La deuxième contribution concerne donc la mise en place d'un ré-échantillonnage optimisé pour la tâche de classification. Un interpolateur à noyau prenant en compte l'information spatiale permet de produire une représentation latente qui est donnée à notre SVGP. Les expérimentations ont été menées avec les SITS de Sentinel-2 pour l'ensemble de l'année 2018 sur une zone d'environ 200 000 km^2(environ 2 milliards de pixels) dans le sud de la France (27 tuiles MGRS). Ce dispositif expérimental est représentatif d'un cadre opérationnel. Les résultats obtenus montrent que les modèles issus des deux contributions sont plus performants que la méthode utilisée pour les systèmes opérationnels actuels (i.e. forêts d'arbres aléatoires avec des SITS linéairement ré-échantillonnées utilisant la stratification spatiale).