Apprentissage profond auto-supervisé de métriques : application à la prédiction d'assemblage de fragments de papyrus - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Self-supervised Deep Metric Learning applied to papyrus reconstruction

Apprentissage profond auto-supervisé de métriques : application à la prédiction d'assemblage de fragments de papyrus

Résumé

This work is about developing Deep Learning methods to suggest relevant pairings for fragments of documents applied to the reconstruction of ancient papyrus fragments. A method based on Deep Siamese Neural Networks and a self-supervised approach was developed to tackle the challenge of the scarcity of training data. This work is part of the GESHAEM project, a scientific research initiative funded by the European Research Council (ERC). Its goal is to study a papyrological corpus, the Jouguet Collection of the Sorbonne, composed of papyri that have been torn to make funeral ornaments (cartonnages). These papyri are mostly administrative and fiscal documents that are very interesting to historians in order to get a better understanding of the way these ancient societies were organized. However, because the papyri were torn at the time (about 2000 years ago), and because they are quite degraded as a result of the elements and time, their study first requires a lot of reconstruction work by papyrologists. This is a long and tedious process to do manually as the collection is composed of hundreds of fragments. The goal of this work is therefore to automatically propose suggestions of pairings of fragments to the papyrologists in order to speed up the reconstruction process. A patch based approach using Deep Siamese Neural Networks was developed to compute a similarity score between two fragments of papyrus. This is a challenging task for multiple reasons as in this field data is often scarce, not (yet) labeled and in poor condition. Moreover, it is very difficult to get enough labeled data to produce a general model that will work on many types of documents. The proposed process should be general enough to provide good results on any kind of documents (or even other applicative fields) by training domain specific models. To tackle these issues, a self-supervised learning process that uses the intrinsic structure of the documents was developed to allow for the training of Deep Siamese Neural Networks without the need for any labeled data. A ready to use learning database based on the papyrological collection of the University of Michigan was also proposed as a contribution to the community.
Dans cette thèse est présenté le développement de méthodes d’apprentissage profond pour proposer des appairages pertinents de fragments de documents, appliquées à la reconstruction de papyrus anciens. Nous avons conçu une méthode basée sur des réseaux de neurones siamois profonds ainsi qu’une approche auto-supervisée pour pallier le problème de la faible quantité de données d’entraînement annotées disponibles dans ce domaine. Ce travail fait partie du projet GESHAEM, une initiative de recherche scientifique financée par le Conseil Européen de la Recherche (European Research Council, ERC). Son objectif est d’étudier un corpus papyrologique, la collection Jouguet de la Sorbonne, composé de papyrus qui ont été déchirés pour fabriquer des ornements funéraires. Ces papyrus sont pour la plupart des documents administratifs et fiscaux dont le contenu est très utile pour les historiens afin de mieux comprendre la façon dont ces sociétés anciennes étaient organisées. Cependant, de part le fait que les papyrus ont été déchirés il y a environ 2000 ans, et qu’ils ont été très dégradés à cause du temps et des conditions de conservation, leur étude nécessite un grand travail de reconstruction par les papyrologues. C’est un processus long et fastidieux s’il est fait à la main, car la collection est composée de centaines de fragments. L’objectif de ce travail est ainsi de calculer des suggestions d’appairages de fragments aux papyrologues afin d’accélérer le processus de reconstruction. Nous proposons une approche basée sur des patchs utilisant des réseaux de neurones siamois profonds pour calculer un score de similarité entre deux fragments de papyrus. La difficulté d’obtenir des données annotées en grande quantité rend difficile la construction d’un modèle fonctionnant sur différents types de documents. Pour cela, nous proposons une méthodologie d’apprentissage auto-supervisée exploitant la structure intrinsèque des documents. Cette méthode permet d’entraîner des réseaux de neurones siamois profonds sans avoir besoin de données annotées. Nous avons aussi constitué une base de données prête à l’emploi basée sur la collection de papyrus de l’Université du Michigan, que nous avons ouverte à la communauté.
Fichier principal
Vignette du fichier
PIRRONE_ANTOINE_2022.pdf (56.2 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03685839 , version 1 (02-06-2022)

Identifiants

  • HAL Id : tel-03685839 , version 1

Citer

Antoine Pirrone. Apprentissage profond auto-supervisé de métriques : application à la prédiction d'assemblage de fragments de papyrus. Modélisation et simulation. Université de Bordeaux, 2022. Français. ⟨NNT : 2022BORD0125⟩. ⟨tel-03685839⟩
219 Consultations
21 Téléchargements

Partager

Gmail Facebook X LinkedIn More