Apprentissage auto-supervisé contrastif de représentations pour les images de télédétection
Auteur / Autrice : | Jules Bourcier |
Direction : | Jocelyn Chanussot, Karteek Alahari |
Type : | Projet de thèse |
Discipline(s) : | Signal Image Parole Télécoms |
Date : | Inscription en doctorat le Soutenance le 06/11/2024 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images parole signal automatique (2007-....) |
Equipe de recherche : SIGMAPHY | |
Jury : | Président / Présidente : Dino Ienco |
Examinateurs / Examinatrices : Jocelyn Chanussot, Michael Schmitt, Mauro Dalla mura, Begüm Demir, Clément Mallet, Karteek Alahari, Charlotte Pelletier | |
Rapporteurs / Rapporteuses : Michael Schmitt, Clément Mallet |
Mots clés
Résumé
La télédétection est un outil essentiel pour surveiller et comprendre notre planète et les activités humaines à l'échelle mondiale. Les données capturées par les satellites permettent aux scientifiques et aux analystes de détecter et d'identifier une large gamme d'objets et d'événements partout dans le monde, de manière très fréquente. Avec l'avancée et la multiplication des satellites d'imagerie terrestre, les organisations civiles et gouvernementales ont aujourd'hui accès à des quantités astronomiques de données visuelles, dont l'échelle nécessite l'utilisation d'algorithmes de vision par ordinateur et d'apprentissage automatique pour être traitées. Les réseaux de neurones profonds, capables d'apprendre des représentations sémantiques puissantes à partir des données, constituent un moyen de faire des progrès significatifs dans l'analyse des images de télédétection pour des tâches d'observation de la Terre, telles que la cartographie de l'occupation et de l'utilisation des sols. Cependant, la disponibilité limitée de données annotées pour ces tâches pose un défi important, car les méthodes d'apprentissage supervisé traditionnelles nécessitent de grands ensembles de données annotées pour (pré)entraîner les modèles. Cette thèse se concentre sur l'apprentissage auto-supervisé des représentations visuelles, dont l'objectif est d'apprendre des extracteurs de caractéristiques profonds à partir d'images non annotées, pouvant ensuite être transférés pour s'attaquer à des tâches aval avec un nombre limité de données annotées. De telles méthodes suscitent un grand intérêt pour la télédétection en raison de l'abondance des données et de la rareté des annotations. Nous présentons différentes contributions à l'intersection de l'apprentissage auto-supervisé et de la télédétection. Plus précisément, nous visons à évaluer et améliorer l'efficacité et la précision des approches d'apprentissage d'embeddings conjoints pour la reconnaissance d'images satellites optiques, en proposant trois contributions ancrées dans les caractéristiques et défis spécifiques aux données de télédétection. Premièrement, nous menons une étude sur la performance et la robustesse des modèles contrastifs sur les images satellites, en évaluant leurs performances sur plusieurs ensembles de données et protocoles d'évaluation. Nous constatons que le préentraînement auto-supervisé est plus robuste que ses homologues supervisés sur plusieurs tâches, régimes d'annotation et stratégies de transfert. Deuxièmement, nous proposons une méthode qui exploite les séries temporelles d'images pour sélectionner des vues positives plus pertinentes dans l'apprentissage contrastif. Notre modèle apprend des représentations globales temporelles, ce qui améliore la généralisation sur une tâche de prédiction temporellement invariante. Troisièmement, nous introduisons une nouvelle tâche de préentraînement multimodal exploitant les métadonnées des images satellites comme signal de supervision direct. Nous montrons que des représentations significatives peuvent être apprises à partir de cette tâche prétexte, et celles-ci présentent des propriétés avantageuses par rapport aux méthodes apprenant uniquement à partir des images.