Auteur / Autrice : | Baptiste Blouin |
Direction : | Benoît Favre |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 13/12/2022 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | Ecole Doctorale Mathématiques et Informatique de Marseille (Marseille) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique et Systèmes (LIS) (Marseille, Toulon) |
Jury : | Président / Présidente : Richard Dufour |
Examinateurs / Examinatrices : Sahar Ghannay, Béatrice Daille | |
Rapporteurs / Rapporteuses : Jean-Yves Antoine, Maud Ehrmann |
Mots clés
Résumé
À l'heure de la numérisation massive des sources historiques, l'extraction automatique des événements est une étape cruciale dans le traitement des textes historiques. Le traitement des événements est un domaine de recherche actif dans la communauté du traitement automatique du langage naturel, mais les ressources et les systèmes sont principalement développés pour le traitement des textes contemporains.Dans ce contexte, cette thèse vise à extraire automatiquement des événements à partir de documents historiques.Cette thèse propose des échanges pluridisciplinaires afin d'adapter les ontologies récentes à des fins de recherche en histoire.Au-delà des besoins spécifiques des humanités numériques, les documents historiques OCRisés datant de plus d'un siècle sont loin de ce que les approches contemporaines ont l'habitude de traiter. Que ce soit au niveau de la diachronie, de la qualité et de l'adaptation au domaine, le traitement de ce type de document pose des problèmes majeurs en TAL. Nous proposons alors des techniques d'adaptation au domaine combinant l'utilisation d'architectures spécialisées récentes et des étapes de prétraitement, permettant de réduire l'impact de ces difficultés tout en tirant parti des ressources contemporaines.Enfin, sur la base d'un paradigme récent consistant à traduire des tâches comme un problème de questions-réponses, nous proposons un pipeline d'extraction d'événement adapté au traitement de documents historiques. De l'extraction d'un mot déclenchant un événement dans une phrase à la représentation de plus d'un siècle d'événements sous forme de graphes, nous proposons une exploration ciblée d'une grande quantité de sources historiques.