Thèse soutenue

De la complexité de l'annotation manuelle : méthodologie, biais et recommandations

FR  |  
EN
Auteur / Autrice : Anaelle Baledent
Direction : Yann Mathet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/12/2022
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : établissement de préparation : Université de Caen Normandie (1971-....)
Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
Jury : Président / Présidente : Jean-Yves Antoine
Examinateurs / Examinatrices : Frédéric Landragin, Sophie Rosset, Karën Fort, Lydia-Mai Ho-Dac, Iris Eshkol
Rapporteurs / Rapporteuses : Frédéric Landragin, Sophie Rosset

Résumé

FR  |  
EN

Les corpus de référence annotés constituent des éléments primordiaux de nombreuses tâches du Traitement Automatique des Langues. Leur construction fait l'objet d’une attention particulière, notamment lors de campagnes d’annotation manuelle. Ces dernières impliquent de multiples aspects, déjà étudiés dans la littérature mais souvent de manière séparée. Nous présentons une synthèse des problèmes rencontrés lors des différentes étapes d'une campagne, attirant l’attention des gestionnaires sur des points de vigilance, afin qu'ils fassent preuve de prudence durant leur campagne.Cette thèse donne une première définition des biais d’annotation, qui sont des phénomènes perturbateurs et variés pouvant avoir une incidence sur les annotations. Nous proposons une méthode et des moyens d'observation pour détecter et analyser la présence de biais d’annotation. Deux campagnes d’annotation, menées spécialement dans le but d'étudier des biais particuliers, servent d'illustration et nous ont permis de constater l'influence tangible de certains paramètres sur l’annotation. Dans cette optique, nous avons aussi introduit la notion de consensualité, qui permet en particulier de situer un annotateur par rapport à un groupe. Nous montrons un premier lien entre les annotateurs les moins consensuels et les moins performants.