De la complexité de l'annotation manuelle : méthodologie, biais et recommandations - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

On the complexity of manual annotation : methodology, bias and recommendations

De la complexité de l'annotation manuelle : méthodologie, biais et recommandations

Résumé

Annotated reference corpora are essential elements of many tasks in Natural Language Processing. Their construction is the object of particular attention, especially during manual annotation campaigns. The latter involve multiple aspects, already studied in the literature but often separately. We present a synthesis of the problems encountered during the different stages of a campaign, drawing the attention of managers to points of vigilance, so that they can be careful during their campaign.This thesis gives a first definition of annotation biases, which are disturbing and varied phenomena that can have an impact on annotations. We propose a method and means of observation to detect and analyze the presence of annotation bias. Two annotation campaigns, conducted specifically to study particular biases, serve as illustrations and have allowed us to observe the tangible influence of certain parameters on the annotation. In this perspective, we have also introduced the notion of consensuality, which allows us to situate an annotator in relation to a group. We show a first link between the least consensual annotators and the least efficient ones.
Les corpus de référence annotés constituent des éléments primordiaux de nombreuses tâches du Traitement Automatique des Langues. Leur construction fait l'objet d’une attention particulière, notamment lors de campagnes d’annotation manuelle. Ces dernières impliquent de multiples aspects, déjà étudiés dans la littérature mais souvent de manière séparée. Nous présentons une synthèse des problèmes rencontrés lors des différentes étapes d'une campagne, attirant l’attention des gestionnaires sur des points de vigilance, afin qu'ils fassent preuve de prudence durant leur campagne.Cette thèse donne une première définition des biais d’annotation, qui sont des phénomènes perturbateurs et variés pouvant avoir une incidence sur les annotations. Nous proposons une méthode et des moyens d'observation pour détecter et analyser la présence de biais d’annotation. Deux campagnes d’annotation, menées spécialement dans le but d'étudier des biais particuliers, servent d'illustration et nous ont permis de constater l'influence tangible de certains paramètres sur l’annotation. Dans cette optique, nous avons aussi introduit la notion de consensualité, qui permet en particulier de situer un annotateur par rapport à un groupe. Nous montrons un premier lien entre les annotateurs les moins consensuels et les moins performants.
Fichier principal
Vignette du fichier
sygal_fusion_39187-baledent-anaelle_64007e324cb85.pdf (7.35 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04011353 , version 1 (02-03-2023)

Identifiants

  • HAL Id : tel-04011353 , version 1

Citer

Anaelle Baledent. De la complexité de l'annotation manuelle : méthodologie, biais et recommandations. Informatique et langage [cs.CL]. Normandie Université, 2022. Français. ⟨NNT : 2022NORMC253⟩. ⟨tel-04011353⟩
92 Consultations
89 Téléchargements

Partager

Gmail Facebook X LinkedIn More