Generalizable features and image search for multi-source interconnection and analysis - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Generalizable features and image search for multi-source interconnection and analysis

Description et recherche d'image généralisables pour l'interconnexion et l'analyse multi-source

Résumé

With an ever increasing volume of digitally accessible images, establishing connections to organize and analyse data is all the more important. A typical formulation for connecting images without using metadata is content-based image retrieval (CBIR). Similarly to other applications in computer vision, CBIR has benefited from the expressivity of convolutional neural networks (CNN) and obtained unprecedented results on usual benchmarks. However, it is hard to say whether this performance is explained by the proposal of more and more sophisticated architectures and models, or simply by the presence of a training dataset that matches the use case, i.e. that has similar visual and semantic characteristics. Indeed, the usual paradigm of the model-training dataset couple shows its limits as soon as one leaves the case characterized by the training data: the performance drops when the model is tested on different data, or data with too high variability.This thesis addresses this issue with a critical look at deep learning methods and their real application potential. In a context of multi-source geographical imagery, a benchmark is proposed to characterize a new research problem: heterogeneous image retrieval, "low-data" (without training data), with a use case where defining a training dataset and a baseline method is not easy: the interconnection of iconographic collections from different heritage institutions. With this benchmark, new measures are proposed to qualify the generalization ability of the model in a CBIR context, then technical solutions that allow to get rid of the hazardous definition of similar visual and semantic characteristics. The discussion around the results highlights a probably too great importance given to the architecture of neural networks, and promising ideas in CBIR which provides tools agnostics of the used model, and allowing to exploit the comparative advantages of different models trained on different data sets. Finally, the interest of this generalist approach is confirmed by a second application to land-use classification with high-resolution satellite imagery, a case where despite the abundance of methods and data, they are encapsulated in a set of small datasets and therefore with a limited application potential
Avec un volume toujours plus grand d'images accessibles numériquement, établir des connexions pour structurer et analyser les données devient d'autant plus important. Une formulation typique pour connecter entre elles des images sans utiliser de métadonnées est la recherche d'image basée contenu (RIBC). Similairement aux autres applications en vision par ordinateur, la RIBC a bénéficié du pouvoir expressif des réseaux de neurones convolutifs (CNN) et obtenu des résultats inédits sur les benchmarks usuels. Cependant, il est difficile de dire si cette performance est due à la proposition d'architectures et de modèles toujours plus évolués, ou simplement à la présence d'un jeu de données d'entraînement qui correspond bien au cas d'usage, c'est-à-dire qui a des caractéristiques visuelles et sémantiques similaires. En effet, le paradigme habituel du couple modèle-jeu d'entraînement montre ses limites dès lors qu'on sort du cas caractérisé par les données d'entraînement: la performance chute si on teste sur des données différentes ou avec une variabilité trop grande.Cette thèse s'intéresse à cette question avec un regard critique sur les méthodes d'apprentissage profond et leur potentiel réel d'application. Dans un contexte d'imagerie géographique (vue aériennes obliques ou verticales) multi-source, un benchmark est proposé pour caractériser un nouveau problème de recherche: la recherche d'image hétérogène, "low-data" (sans données d'entraînement), avec un cas d'utilisation où définir un jeu de données d'entraînement et une méthode adéquate n'est pas facile: l'interconnexion de collections iconographiques provenant de différentes institutions patrimoniales. Avec ce benchmark, de nouvelles mesures sont proposées pour qualifier la capacité à généraliser du modèle dans un contexte RIBC, puis des solutions techniques qui permettent de s'affranchir de la définition hasardeuse des caractéristiques visuelles et sémantiques similaires. La discussion autour des résultats permet de mettre en valeur une importance probablement trop grande donnée à l'architecture des réseaux de neurones, et des pistes prometteuses dans la RIBC qui fournit des outils agnostiques du modèle utilisé, et permettant d'exploiter les avantages comparatifs de différents modèles entraînés sur différents jeux de données. Enfin, l'intérêt de cette approche généraliste est confirmé par une application à un deuxième cas, où malgré l'abondance de méthodes et de données, elles sont encapsulées dans un ensemble de petits datasets et donc peu généralisables: la classification d'occupation au sol en imagerie satellite
Fichier principal
Vignette du fichier
TH2021UEFL2023.pdf (103.47 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03629550 , version 1 (04-04-2022)

Identifiants

  • HAL Id : tel-03629550 , version 1

Citer

Dimitri Gominski. Generalizable features and image search for multi-source interconnection and analysis. Machine Learning [cs.LG]. Université Gustave Eiffel, 2021. English. ⟨NNT : 2021UEFL2023⟩. ⟨tel-03629550⟩
58 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More