Thèse soutenue

Extractiοn d'infοrmatiοn dans des dοcuments histοriques à l'aide de grands mοdèles multimοdaux

FR  |  
EN
Auteur / Autrice : Thomas Constum
Direction : Thierry Paquet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/11/2024
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Établissement co-accrédité : Université de Rouen Normandie (1966-....)
Jury : Président / Présidente : Patrice Bellot
Examinateurs / Examinatrices : Thierry Paquet, Patrice Bellot, Aurélie Lemaitre, Laurence Likforman-Sulem, Pierrick Tranouez, Sandra Brée
Rapporteur / Rapporteuse : Aurélie Lemaitre, Laurence Likforman-Sulem

Résumé

FR  |  
EN

Cette thèse porte sur l'extraction automatique d'informations à partir de documents manuscrits historiques, dans le cadre des projets POPP et EXO-POPP. Le projet POPP se concentre sur les tableaux de recensement manuscrits de Paris (1921-1946), tandis qu'EXO-POPP traite des actes de mariage du département de la Seine (1880-1940). L’objectif principal est de développer une architecture de bout en bout pour l’extraction d’information à partir de documents complets, évitant les étapes explicites de segmentation.Dans un premier temps, une chaîne de traitement séquentielle a été développée pour le projet POPP, permettant l’extraction automatique des informations de 9 millions d’individus sur 300 000 pages. Ensuite, une architecture de bout en bout pour l'extraction d'information a été mise en place pour EXO-POPP, s’appuyant sur un encodeur convolutif et un décodeur Transformer, avec insertion de symboles spéciaux encodant les informations à extraire.Par la suite, l’intégration de grands modèles de langue basés sur l’architecture Transformer a conduit à la création du modèle DANIEL, qui a atteint un nouvel état de l’art sur plusieurs jeux de données publics (RIMES 2009 et M-POPP pour la reconnaissance d'écriture, IAM NER pour l'extraction d'information) tout en présentant une vitesse d'inférence supérieure aux approches existantes. Enfin, deux jeux de données publics issus des projets POPP et EXO-POPP ont été mis à disposition, ainsi que le code et les poids du modèle DANIEL.