Extraction d'information dans des documents manuscrits anciens

Adeline Granet

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Extraction d'information dans des documents manuscrits anciens

FR |

EN

Auteur / Autrice :	Adeline Granet
Direction :	Emmanuel Morin, Harold Mouchère, Solen Quiniou
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 12/12/2018
Etablissement(s) :	Nantes
Ecole(s) doctorale(s) :	École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche :	COMUE : Université Bretagne Loire (2016-2019)
	Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury :	Président / Présidente : Antoine Doucet
	Examinateurs / Examinatrices : Frédéric Béchet, Clément Chatelain

Mots clés

FR

Mots clés contrôlés

Exploration de données

Mots clés libres

--

Résumé

FR |

EN

La tâche d'exploration dans des ressources inexploitées mais nouvellement numérisées, afin d'y trouver des informations pertinentes, est complexifiée par la quantité de ressources disponibles. Grâce au projet ANR CIRESFI, la ressource la plus importante, pour la Comédie-Italienne du XVIIIe siècle, est un ensemble de registres comptables constituée de 28 000 pages. L'extraction d'informations est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation, extraction de caractéristiques, reconnaissance d’écriture manuscrite. Les systèmes à base de réseaux de neurones profonds dominent dans l'ensemble ces approches. Le problème majeur est qu'ils nécessitent d'avoir une grande quantité de données pour réaliser leur apprentissage. Cependant, les registres de la Comédie- Italienne ne possèdent pas de vérité terrain. Pour palier ce manque de données, nous explorons des approches pouvant opérer un apprentissage par transfert de connaissance. Cela signifie utiliser un ensemble de données déjà étiquetées et disponibles, possédant un minimum de points communs avec nos données pour entraîner les systèmes, pour ensuite les appliquer sur nos données. L'ensemble de nos expérimentations nous ont montré la difficulté de réaliser cette tâche, chaque choix à chaque étape ayant un impact fort sur la suite du système. Nous convergeons vers une solution séparant le modèle optique du modèle de langage afin de réaliser un apprentissage indépendant avec différents types de ressources disponibles et se rejoignant grâce à une projection de l'ensemble des informations dans un espace commun nonlatent.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extraction d'information dans des documents manuscrits anciens

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extraction d'information dans des documents manuscrits anciens

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses