Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins.
Auteur / Autrice : | Sergio Torres Aguilar |
Direction : | Pierre Chastang, Xavier Tannier |
Type : | Thèse de doctorat |
Discipline(s) : | Histoire, histoire de l'art et archéologie |
Date : | Soutenance le 05/12/2019 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences de l'Homme et de la société (Sceaux, Hauts-de-Seine ; 2015-2020) |
Partenaire(s) de recherche : | Laboratoire : Dynamiques patrimoniales et culturelles (Guyancourt, Yvelines ; 1994-....) - Dynamiques patrimoniales et culturelles (Guyancourt, Yvelines ; 1994-....) |
établissement opérateur d'inscription : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....) | |
Jury : | Président / Présidente : Chloé Clavel |
Examinateurs / Examinatrices : Pierre Chastang, Xavier Tannier, Chloé Clavel, Aude Mairey, Julien Velcin, Eliana Magnani, Miguel Calleja Puerta | |
Rapporteur / Rapporteuse : Aude Mairey, Julien Velcin |
Résumé
Nous présentons dans cette thèse deux modèles informatiques développés pour délivrer de l'information structurée et applicables à de grandes bases de données de textes médiévaux. Les deux modèles, l'un appliqué à la reconnaissance des entités nommées, l'autre à la détection des parties du discours diplomatique, ont suivi un apprentissage supervisé utilisant la méthode des Champs aléatoires conditionnelles (CRF) sur un corpus manuellement annoté de actes médiévaux (Corpus Burgundiae Medii Aevi ou CBMA).Notre modèle principal de reconnaissance d'entités nommées a prouvé sa robustesse lorsqu'il a été appliqué sur des échantillons de corpus de taille, chronologie et origine très variés. Le modèle secondaire détectant les parties du discours diplomatique, bien que moins performant, s'est montré valide comme outil de structuration. Ils peuvent à présent être utilisés pour l'indexation et l’étude d’une grande variété de sources diplomatiques, économisant, ainsi des considérables efforts humains.Nous avons développé différentes solutions destinées à trouver un juste équilibre entre la dépendance du modèle à son corpus d'origine et sa capacité à être appliqué à d’autres corpus. De même, différents ajouts et corrections ont été opérés sur le corpus de référence à partir de plusieurs observations de type historique et linguistique concernant les documents utilisés, ce qui a permis d'améliorer la performance initiale.Nous avons ensuite appliqué les outils ainsi générés à la reconnaissance de noms de personnes, de lieux et de parties du discours diplomatique sur des milliers d'actes du CBMA afin d'étudier différentes questions intéressant la science historique et la diplomatique. Ces études concernent la datation semi-automatique d'un cartulaire qui en était dépourvu ; l'évolution du vocabulaire spatial dans les actes du Moyen Âge Central; et l'indexation des documents à partir des modules les intégrant, notamment les formules du protocole des actes. Par ces études nous poursuivons un double objectif: illustrer différentes stratégies permettant d'abstraire et d'adapter au traitement automatique des données des méthodes de recherche classiques en Histoire ; démontrer que nos outils de traitement massif permettent la génération de connaissances pertinentes pour la science historique.