Apprentissage hybride pour la détection d'objets sur images satellitaires
Auteur / Autrice : | Clément Barbier |
Direction : | Stéphane Herbin |
Type : | Projet de thèse |
Discipline(s) : | Sciences du traitement du signal et des images |
Date : | Inscription en doctorat le 01/10/2022 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : ONERA - Département Traitement de l'information et systèmes |
Référent : Faculté des sciences d'Orsay |
Mots clés
Résumé
Les images satellites ou aérienne sont un moyen intéressant et facile d'acquérir des informations sur de grandes surfaces. Un cas d'utilisation typique est celui de l'estimation de l'activité en observant la présence et le nombre d'objets caractéristiques dans une scène donnée : les bateaux de croisière dans un port, par exemple, peuvent mesurer l'activité touristique, le nombre de hangars à la périphérie d'une ville donne une indication du niveau de développement économique, les bâtiments fonctionnels (intacts ou endommagés) peuvent révéler le niveau d'organisation politique après une catastrophe naturelle. Des outils automatisés de détection de ces objets sont nécessaires, par exemple pour suivre régulièrement l'évolution de cette activité. L'apprentissage supervisé de réseaux profonds est la technique moderne utilisée pour concevoir des détecteurs d'objets sur des images. Elle s'appuie sur un large ensemble de données annotées qui échantillonnent la distribution d'entrée des images. Cependant, en raison de la spécificité des objets recherchés dans les images, il n'y a souvent pas de base de données d'entraînement disponible pour appliquer une approche d'apprentissage purement supervisé, et de nouveaux moyens d'exploiter d'autres sources de connaissances deviennent nécessaires. L'objectif de l'intelligence artificielle ou de l'apprentissage hybride est de proposer des moyens formels pour introduire de bons priors sur une approche basée sur les données exprimées sous la forme d'une représentation des connaissances ou à partir d'un modèle analytique. Dans cette thèse, il est proposé d'utiliser le langage naturel comme un moyen flexible d'encoder de telles connaissances afin de spécialiser les détecteurs d'objets. Des approches associant langage naturel et vision par ordinateur [Mogadala, 2019] ont été développées récemment grâce aux possibilités offertes par les architectures de réseaux de neurones profonds pour faciliter la combinaison d'espaces de représentation multimodaux. Des problèmes tels que le sous-titrage d'images, la réponse à des questions visuelles (' VQA '), le dialogue ou l'apprentissage de zéro-shot [Bucher, 2016] [Bucher, 2017] sont maintenant devenus des sujets de recherche standard, et ont donné lieu à quelques applications dans le domaine de la télédétection (sous-titrage [Lu, 2017] [Zhang, 2019] [Wang, 2019c], VQA [Lobry, 2020], Zero-shot [Sumbul, 2017] [Chen, 2019]). Des approches récentes utilisent des espaces visuels/sémantiques pour encoder des corrélations multimodales complexes [Su, 2019] [Lu, 2019] [Tan, 2019] [Zhang, 2021a] [Zareian, 2021]. L'une des directions de recherche proposées consiste à compléter les descriptions d'objets basées sur le langage par des exemples visuels supplémentaires. Cet objectif peut être considéré pour la détection d'objets comme l'association de ce que l'on appelle le 'zero-shot' - les classes d'objet sont définies de manière textuelle [Tan, 2021] [Rahman, 2020b] [Zhu, 2020] - et le 'few-shot' - la classe d'objet est définie à partir de quelques exemples [Sun, 2019] [Wang, 2019a] [Wang, 2019b] [Wang, 2020] ou par approches incrémentales [Perez-Rua, 2020] [Zhang, 2021a] [Cheraghian , 2021]. Cette tâche est maintenant parfois appelée 'any-shot' dans la littérature [Khandelwal, 2020] [Rahman, 2020a] [Xian, 2019] [Guan, 2020]. La génération d'images conditionnelles à partir de descriptions de forme libre [Ramesh, 2021] est également une direction intéressante pour pallier le manque de données sur des objets spécifiques. Une spécificité du domaine de l'analyse des images de télédétection est la petite taille apparente de certains objets d'intérêt ou l'ambiguïté de leur forme. De ce fait, les objets ne sont souvent identifiables que par leur contexte, par leur configuration ou en relation avec d'autres entités : véhicule sur la route, bateaux amarrés dans un port, église ou mairie devant une place, école près d'une cour, camp contenant une série de bâtiments standardisés, etc. La question se pose alors d'introduire dans un détecteur, et de manière suffisamment souple, des connaissances ou des descriptions permettant de décrire un tel contexte [Zablocki, 2019] [Li, 2020] [Luo, 2020] [Yang, 2020] [Zhao, 2021]. La thèse abordera donc deux problématiques : - Comment construire une détection d'objet spécifique lorsque la catégorie d'objet est définie par des descriptions textuelles/basées sur des connaissances et des échantillons visuels ? - Comment exploiter efficacement une description du contexte géo-spatial (par du texte ou des échantillons d'images) et l'introduire comme préalable dans un algorithme de détection d'objets ?