Analyse en corpus de chaînes de coréférence : la coréférence non-stricte à l'épreuve de la linguistique outillée
Auteur / Autrice : | Marine Delaborde |
Direction : | Frédéric Landragin |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance le 14/12/2020 |
Etablissement(s) : | Paris 3 |
Ecole(s) doctorale(s) : | École doctorale Sciences du langage (Paris ; 2019-....) |
Partenaire(s) de recherche : | Laboratoire : Langues, textes, traitements informatiques, cognition (Montrouge, Hauts de Seine) |
Jury : | Président / Présidente : Jeanne-Marie Debaisieux |
Examinateurs / Examinatrices : Frédéric Landragin, Jeanne-Marie Debaisieux, Laure Gardelle, Emmanuel Schang, Guy Achard-Bayle | |
Rapporteurs / Rapporteuses : Laure Gardelle, Emmanuel Schang |
Mots clés
Résumé
Une chaîne de coréférence désigne l'ensemble des expressions linguistiques qui réfèrent à la même entité. La relation de coréférence entre les « maillons » d'une chaîne implique que le référent doit être strictement le même pour chaque expression qui la compose. Cependant, il arrive que le référent d'une expression soit difficile à identifier et que la relation de coréférence entre plusieurs expressions ne soit pas stricte de manière certaine. Pour un lecteur, ce manque de précision ne pose pas nécessairement de difficultés. En revanche, lors de l'annotation d'un corpus en coréférences, il est question d'indiquer clairement le référent de chaque expression. Les phénomènes de coréférence non stricte peuvent donc causer des difficultés d'annotation. Cette thèse a débuté au sein du projet ANR Democrat, avec une tâche d'annotation qui a permis de faire émerger des difficultés d'annotation théoriques et techniques liées à la coréférence non stricte. Nous proposons donc de passer en revue les phénomènes linguistiques impliqués dans la coréférence non stricte, notamment le flou (co)référentiel ainsi que les cas typiques relevés en corpus. Dans un second temps, nous proposons une étude de l'annotation de ces phénomènes dans un sous-corpus de Democrat. Cette étude révèle une grande variabilité d'annotation de ces phénomènes dont nous tirons une classification. Pour éviter les difficultés d'annotation liées à ces phénomènes, nous proposons un cadre plus précis pour l'annotation de la coréférence floue. Cela implique des précisions à ajouter au manuel d'annotation ainsi qu'un schéma d'annotation adapté, prenant en compte la coréférence floue.