Extractiοn d'infοrmatiοn dans des dοcuments histοriques à l'aide de grands mοdèles multimοdaux

Thomas Constum

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Extractiοn d'infοrmatiοn dans des dοcuments histοriques à l'aide de grands mοdèles multimοdaux

FR |

EN

Auteur / Autrice :	Thomas Constum
Direction :	Thierry Paquet
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 28/11/2024
Etablissement(s) :	Normandie
Ecole(s) doctorale(s) :	École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
	Établissement co-accrédité : Université de Rouen Normandie (1966-....)
Jury :	Président / Présidente : Patrice Bellot
	Examinateurs / Examinatrices : Thierry Paquet, Patrice Bellot, Aurélie Lemaitre, Laurence Likforman-Sulem, Pierrick Tranouez, Sandra Brée
	Rapporteur / Rapporteuse : Aurélie Lemaitre, Laurence Likforman-Sulem

Mots clés

FR |

EN

Mots clés contrôlés

Traitement automatique du langage naturel

Apprentissage profond

Modèles entité-association

Modèles d'information

Numérisation

Reconnaissance optique des caractères

Mots clés libres

Reconnaissance de textes manuscrits

Mécanismes d'attention

Transformer

Extraction d'Information

Reconnaissance d'Entités Nommées

Compréhension de documents

Résumé

FR |

EN

Cette thèse porte sur l'extraction automatique d'informations à partir de documents manuscrits historiques, dans le cadre des projets POPP et EXO-POPP. Le projet POPP se concentre sur les tableaux de recensement manuscrits de Paris (1921-1946), tandis qu'EXO-POPP traite des actes de mariage du département de la Seine (1880-1940). L’objectif principal est de développer une architecture de bout en bout pour l’extraction d’information à partir de documents complets, évitant les étapes explicites de segmentation.Dans un premier temps, une chaîne de traitement séquentielle a été développée pour le projet POPP, permettant l’extraction automatique des informations de 9 millions d’individus sur 300 000 pages. Ensuite, une architecture de bout en bout pour l'extraction d'information a été mise en place pour EXO-POPP, s’appuyant sur un encodeur convolutif et un décodeur Transformer, avec insertion de symboles spéciaux encodant les informations à extraire.Par la suite, l’intégration de grands modèles de langue basés sur l’architecture Transformer a conduit à la création du modèle DANIEL, qui a atteint un nouvel état de l’art sur plusieurs jeux de données publics (RIMES 2009 et M-POPP pour la reconnaissance d'écriture, IAM NER pour l'extraction d'information) tout en présentant une vitesse d'inférence supérieure aux approches existantes. Enfin, deux jeux de données publics issus des projets POPP et EXO-POPP ont été mis à disposition, ainsi que le code et les poids du modèle DANIEL.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extractiοn d'infοrmatiοn dans des dοcuments histοriques à l'aide de grands mοdèles multimοdaux

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extractiοn d'infοrmatiοn dans des dοcuments histοriques à l'aide de grands mοdèles multimοdaux

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses