Thèse soutenue

Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Baptiste Blouin
Direction : Benoît Favre
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2022
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole Doctorale Mathématiques et Informatique de Marseille (Marseille)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique et Systèmes (LIS) (Marseille, Toulon)
Jury : Président / Présidente : Richard Dufour
Examinateurs / Examinatrices : Sahar Ghannay, Béatrice Daille
Rapporteurs / Rapporteuses : Jean-Yves Antoine, Maud Ehrmann

Résumé

FR  |  
EN

À l'heure de la numérisation massive des sources historiques, l'extraction automatique des événements est une étape cruciale dans le traitement des textes historiques. Le traitement des événements est un domaine de recherche actif dans la communauté du traitement automatique du langage naturel, mais les ressources et les systèmes sont principalement développés pour le traitement des textes contemporains.Dans ce contexte, cette thèse vise à extraire automatiquement des événements à partir de documents historiques.Cette thèse propose des échanges pluridisciplinaires afin d'adapter les ontologies récentes à des fins de recherche en histoire.Au-delà des besoins spécifiques des humanités numériques, les documents historiques OCRisés datant de plus d'un siècle sont loin de ce que les approches contemporaines ont l'habitude de traiter. Que ce soit au niveau de la diachronie, de la qualité et de l'adaptation au domaine, le traitement de ce type de document pose des problèmes majeurs en TAL. Nous proposons alors des techniques d'adaptation au domaine combinant l'utilisation d'architectures spécialisées récentes et des étapes de prétraitement, permettant de réduire l'impact de ces difficultés tout en tirant parti des ressources contemporaines.Enfin, sur la base d'un paradigme récent consistant à traduire des tâches comme un problème de questions-réponses, nous proposons un pipeline d'extraction d'événement adapté au traitement de documents historiques. De l'extraction d'un mot déclenchant un événement dans une phrase à la représentation de plus d'un siècle d'événements sous forme de graphes, nous proposons une exploration ciblée d'une grande quantité de sources historiques.