Thèse soutenue

Extraction d'information dans des documents manuscrits anciens

FR  |  
EN
Auteur / Autrice : Adeline Granet
Direction : Emmanuel MorinHarold MouchèreSolen Quiniou
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/12/2018
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : COMUE : Université Bretagne Loire (2016-2019)
Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Antoine Doucet
Examinateurs / Examinatrices : Frédéric Béchet, Clément Chatelain

Mots clés

FR

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

La tâche d'exploration dans des ressources inexploitées mais nouvellement numérisées, afin d'y trouver des informations pertinentes, est complexifiée par la quantité de ressources disponibles. Grâce au projet ANR CIRESFI, la ressource la plus importante, pour la Comédie-Italienne du XVIIIe siècle, est un ensemble de registres comptables constituée de 28 000 pages. L'extraction d'informations est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation, extraction de caractéristiques, reconnaissance d’écriture manuscrite. Les systèmes à base de réseaux de neurones profonds dominent dans l'ensemble ces approches. Le problème majeur est qu'ils nécessitent d'avoir une grande quantité de données pour réaliser leur apprentissage. Cependant, les registres de la Comédie- Italienne ne possèdent pas de vérité terrain. Pour palier ce manque de données, nous explorons des approches pouvant opérer un apprentissage par transfert de connaissance. Cela signifie utiliser un ensemble de données déjà étiquetées et disponibles, possédant un minimum de points communs avec nos données pour entraîner les systèmes, pour ensuite les appliquer sur nos données. L'ensemble de nos expérimentations nous ont montré la difficulté de réaliser cette tâche, chaque choix à chaque étape ayant un impact fort sur la suite du système. Nous convergeons vers une solution séparant le modèle optique du modèle de langage afin de réaliser un apprentissage indépendant avec différents types de ressources disponibles et se rejoignant grâce à une projection de l'ensemble des informations dans un espace commun nonlatent.