De la complexité de l'annotation manuelle : méthodologie, biais et recommandations
Auteur / Autrice : | Anaelle Baledent |
Direction : | Yann Mathet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 01/12/2022 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
Partenaire(s) de recherche : | établissement de préparation : Université de Caen Normandie (1971-....) |
Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....) | |
Jury : | Président / Présidente : Jean-Yves Antoine |
Examinateurs / Examinatrices : Frédéric Landragin, Sophie Rosset, Karën Fort, Lydia-Mai Ho-Dac, Iris Eshkol | |
Rapporteurs / Rapporteuses : Frédéric Landragin, Sophie Rosset |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les corpus de référence annotés constituent des éléments primordiaux de nombreuses tâches du Traitement Automatique des Langues. Leur construction fait l'objet d’une attention particulière, notamment lors de campagnes d’annotation manuelle. Ces dernières impliquent de multiples aspects, déjà étudiés dans la littérature mais souvent de manière séparée. Nous présentons une synthèse des problèmes rencontrés lors des différentes étapes d'une campagne, attirant l’attention des gestionnaires sur des points de vigilance, afin qu'ils fassent preuve de prudence durant leur campagne.Cette thèse donne une première définition des biais d’annotation, qui sont des phénomènes perturbateurs et variés pouvant avoir une incidence sur les annotations. Nous proposons une méthode et des moyens d'observation pour détecter et analyser la présence de biais d’annotation. Deux campagnes d’annotation, menées spécialement dans le but d'étudier des biais particuliers, servent d'illustration et nous ont permis de constater l'influence tangible de certains paramètres sur l’annotation. Dans cette optique, nous avons aussi introduit la notion de consensualité, qui permet en particulier de situer un annotateur par rapport à un groupe. Nous montrons un premier lien entre les annotateurs les moins consensuels et les moins performants.