Analyse automatique sans annotation de manuscripts vietnamiens anciens
Auteur / Autrice : | Anna Scius-Bertrand |
Direction : | Marc Bui |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et statistiques,et cognition |
Date : | Soutenance le 19/10/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale de l'École pratique des hautes études (Paris) |
Partenaire(s) de recherche : | Laboratoire : Archéologie et philologie d'Orient et d'Occident (Paris ; 1998-....) |
Établissement de préparation de la thèse : École pratique des hautes études (Paris ; 1868-....) | |
Jury : | Président / Présidente : Peter A. Stokes |
Examinateurs / Examinatrices : Marc Bui, Peter A. Stokes, Marie Beurton-Aimar, Josep Llados i Canet, Véronique Eglin, Jean-Marc Ogier | |
Rapporteur / Rapporteuse : Marie Beurton-Aimar, Josep Llados i Canet |
Mots clés
Résumé
L'histoire du Vietnam est principalement basée sur des documents écrits par la cour et le clergé, la vie du peuple y est peu présente. Heureusement pour les historiens, des stèles de pierre ont été gravées par les villageois pendant plusieurs siècles. Elles contiennent une grande quantité d'informations sur l'histoire économique, sociale, religieuse et juridique des villages et de leurs habitants. Ces informations sont dispersées sur des dizaines de milliers d'images numériques de ces stèles. L'objectif de cette thèse est de développer des méthodes pour faciliter l'étude de ces stèles par les historiens afin d'extraire automatiquement les différents éléments textuels des images des stèles et identifier les stèles contenant des mots-clés. Au vue de la littérature dans le domaine, l'apprentissage automatique semble être prometteur pour répondre à cet objectif. Une des principale limitation des algorithmes d'apprentissage automatique est le besoin de données annotées pour l'entrainement. Or il existe peu d'images de stèles annotées. C'est pourquoi cette thèse vise à concevoir des méthodes d'analyse de l'écriture manuscrite avec peu ou pas de données annotées. Elles se basent sur une combinaison d'algorithme d'apprentissage automatique et d'algorithme dit classiques. Plusieurs typologie de réseau neuronal convolutif profond ont été étudié tel que le U-Net, les réseaux de détection d'objet ou encore les réseaux antagonistes génératifs (GAN). En complément de ces réseaux, des algorithmes plus classiques ont été utilisés, notamment des algorithmes de segmentation basés sur le seam carving, des algorithmes de clustering non-supervisé et des algorithmes de correspondance des formes à l'aide de représentations basées sur des graphes. Cette thèse compte principalement cinq contributions. La première est l'analyse de mise en page et la segmentation des colonnes avec peu de vérité de terrain. Les contributions suivantes ont été réalisées entièrement sans annotation. Il s'agit de l'alignement de transcription, la détection de caractères, la génération de caractères synthétiques et la recherche de mot-clé. Les expérimentations ont été conduites sur une base de données d'images d'inscription sur stèle et de pages de manuscrits écrits avec le même script. A travers ces travaux, il a été mis en évidence qu'un grand nombre de tâche d'analyse de document appliquée à des manuscrits vietnamiens pouvaient se réaliser sans annotation grâce au transfert de conaissances entre les caractères imprimés et les caractères écrit à la main. Dans de futurs recherches il serait intéressant de voir dans quelle mesure il est possible de transcrire automatiquement les inscriptions sur stèles sans annotation et de tester ces méthodes sur d'autres scripts.