Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins.

Sergio Torres Aguilar

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins.

FR |

EN

Auteur / Autrice :	Sergio Torres Aguilar
Direction :	Pierre Chastang, Xavier Tannier
Type :	Thèse de doctorat
Discipline(s) :	Histoire, histoire de l'art et archéologie
Date :	Soutenance le 05/12/2019
Etablissement(s) :	Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences de l'Homme et de la société (Sceaux, Hauts-de-Seine ; 2015-2020)
Partenaire(s) de recherche :	Laboratoire : Dynamiques patrimoniales et culturelles (Guyancourt, Yvelines ; 1994-....) - Dynamiques patrimoniales et culturelles (Guyancourt, Yvelines ; 1994-....)
	établissement opérateur d'inscription : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
Jury :	Président / Présidente : Chloé Clavel
	Examinateurs / Examinatrices : Pierre Chastang, Xavier Tannier, Chloé Clavel, Aude Mairey, Julien Velcin, Eliana Magnani, Miguel Calleja Puerta
	Rapporteur / Rapporteuse : Aude Mairey, Julien Velcin

Mots clés

FR |

EN

Mots clés contrôlés

Bases de données

Philologie médiévale

Analyse et indexation des documents

Sources

Histoire médiévale

Humanités numériques

Mots clés libres

Humanités numériques

Reconnaissance des entités nommées

Résumé

FR |

EN

Nous présentons dans cette thèse deux modèles informatiques développés pour délivrer de l'information structurée et applicables à de grandes bases de données de textes médiévaux. Les deux modèles, l'un appliqué à la reconnaissance des entités nommées, l'autre à la détection des parties du discours diplomatique, ont suivi un apprentissage supervisé utilisant la méthode des Champs aléatoires conditionnelles (CRF) sur un corpus manuellement annoté de actes médiévaux (Corpus Burgundiae Medii Aevi ou CBMA).Notre modèle principal de reconnaissance d'entités nommées a prouvé sa robustesse lorsqu'il a été appliqué sur des échantillons de corpus de taille, chronologie et origine très variés. Le modèle secondaire détectant les parties du discours diplomatique, bien que moins performant, s'est montré valide comme outil de structuration. Ils peuvent à présent être utilisés pour l'indexation et l’étude d’une grande variété de sources diplomatiques, économisant, ainsi des considérables efforts humains.Nous avons développé différentes solutions destinées à trouver un juste équilibre entre la dépendance du modèle à son corpus d'origine et sa capacité à être appliqué à d’autres corpus. De même, différents ajouts et corrections ont été opérés sur le corpus de référence à partir de plusieurs observations de type historique et linguistique concernant les documents utilisés, ce qui a permis d'améliorer la performance initiale.Nous avons ensuite appliqué les outils ainsi générés à la reconnaissance de noms de personnes, de lieux et de parties du discours diplomatique sur des milliers d'actes du CBMA afin d'étudier différentes questions intéressant la science historique et la diplomatique. Ces études concernent la datation semi-automatique d'un cartulaire qui en était dépourvu ; l'évolution du vocabulaire spatial dans les actes du Moyen Âge Central; et l'indexation des documents à partir des modules les intégrant, notamment les formules du protocole des actes. Par ces études nous poursuivons un double objectif: illustrer différentes stratégies permettant d'abstraire et d'adapter au traitement automatique des données des méthodes de recherche classiques en Histoire ; démontrer que nos outils de traitement massif permettent la génération de connaissances pertinentes pour la science historique.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses