Extractiοn d'infοrmatiοn dans des dοcuments histοriques à l'aide de grands mοdèles multimοdaux
Auteur / Autrice : | Thomas Constum |
Direction : | Thierry Paquet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 28/11/2024 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...) |
Établissement co-accrédité : Université de Rouen Normandie (1966-....) | |
Jury : | Président / Présidente : Patrice Bellot |
Examinateurs / Examinatrices : Thierry Paquet, Patrice Bellot, Aurélie Lemaitre, Laurence Likforman-Sulem, Pierrick Tranouez, Sandra Brée | |
Rapporteur / Rapporteuse : Aurélie Lemaitre, Laurence Likforman-Sulem |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse porte sur l'extraction automatique d'informations à partir de documents manuscrits historiques, dans le cadre des projets POPP et EXO-POPP. Le projet POPP se concentre sur les tableaux de recensement manuscrits de Paris (1921-1946), tandis qu'EXO-POPP traite des actes de mariage du département de la Seine (1880-1940). L’objectif principal est de développer une architecture de bout en bout pour l’extraction d’information à partir de documents complets, évitant les étapes explicites de segmentation.Dans un premier temps, une chaîne de traitement séquentielle a été développée pour le projet POPP, permettant l’extraction automatique des informations de 9 millions d’individus sur 300 000 pages. Ensuite, une architecture de bout en bout pour l'extraction d'information a été mise en place pour EXO-POPP, s’appuyant sur un encodeur convolutif et un décodeur Transformer, avec insertion de symboles spéciaux encodant les informations à extraire.Par la suite, l’intégration de grands modèles de langue basés sur l’architecture Transformer a conduit à la création du modèle DANIEL, qui a atteint un nouvel état de l’art sur plusieurs jeux de données publics (RIMES 2009 et M-POPP pour la reconnaissance d'écriture, IAM NER pour l'extraction d'information) tout en présentant une vitesse d'inférence supérieure aux approches existantes. Enfin, deux jeux de données publics issus des projets POPP et EXO-POPP ont été mis à disposition, ainsi que le code et les poids du modèle DANIEL.