Thèse en cours

Traitement du langage naturel appliqué à la représentation de textes narratifs par réseaux de personnage

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 09/12/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Arthur Amalvy
Direction : Vincent LabatutRichard Dufour
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 09/12/2024
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : Agrosciences et Sciences
Partenaire(s) de recherche : Laboratoire : LIA - Laboratoire d'Informatique d'Avignon
Equipe de recherche : CORNET - Complex systems, Operation Resarch and NETworking
Jury : Président / Présidente : Claire Gardent
Examinateurs / Examinatrices : Vincent Labatut, Richard Dufour, Farah Benamara, David Bamman, Christophe Cerisara
Rapporteurs / Rapporteuses : Claire Gardent, Christophe Cerisara

Résumé

FR  |  
EN

Un réseau de personnages représente des personnages comme des sommets dans un graphe, et leurs relations comme les arêtes entre ces sommets. Dans le cas des oeuvres littéraires, ils permettent de modéliser un récit entier en utilisant un seul objet mathématique. En fonction des besoins, leurs arêtes peuvent représenter différents types d'interactions : co-occurrence, conversation, action directe... De plus, les changements temporels dans les relations peuvent être modélisés avec des réseaux dynamiques. Grâce à cette flexibilité, les réseaux de personnages ont été utilisés pour s'attaquer à plusieurs tâches, comme la classification de genre littéraire, la segmentation de récit, la recommandation ou le résumé automatique. Extraire ces réseaux manuellement est cependant coûteux, et de nombreux chercheurs sont donc intéressés par l'automatisation de ce processus. Cette automatisation nécessite de résoudre différentes tâches de traitement du langage naturel telles que la reconnaissance d'entités nommées (REN), la résolution de coréférences ou l'attribution de locuteur. Dans cette thèse, nous présentons des contributions à ce processus d'extraction automatique dans le cas des romans, ainsi qu'à des applications des réseaux de personnages. Nous proposons Renard, un pipeline d'extraction modulaire que nous mettons à disposition sous une licence libre. Nous l'utilisons pour mieux comprendre la performance des pipelines existants en étudiant l'impact des erreurs de REN et de résolution de coréférences sur la qualité des réseaux extraits. Nous observons que la performance des deux tâches est importante, et dépend fortement du roman étudié. Pour la résolution de coréférences, nous notons également que l'impact dépend du type d'erreur : la précision des liens de coréférence extraits est particulièrement importante afin de détecter des personnages. En outre, nous identifions et contribuons à deux défis des systèmes d'extraction de réseaux de personnages. Le premier est le manque de données littéraires pour entraîner ces systèmes. Nous nous nous y attaquons 1) en proposant un nouveau jeu de données littéraire couvrant la REN et la résolution d'alias et 2) en proposant d'utiliser une technique d'augmentation de données, le remplacement de mentions, dans le cas de la REN inter-domaines. Le second défi que nous identifions est la portée limitée des modèles à base de transformers, qui peut être préjudiciable à la performance de certaines tâches. Nous proposons de récupérer du contexte pertinent au niveau du document pour atténuer le manque d'information induit par cette faible portée, et montrons que cela peut augmenter la performance de la tâche de REN. Enfin, nous présentons des contributions aux applications des réseaux de personnages dans le cadre de deux études de cas. Premièrement, nous utilisons des réseaux modélisant différents types d'interactions dans une analyse de Lorenzaccio d'Alfred de Musset. En utilisant la détection de communautés, nous identifions les intrigues de la pièce, quantifions leurs importances relatives et déterminons les interactions entre elles. De plus, nous proposons une méthode automatique pour détecter des conspirations. Deuxièmement, nous proposons d'employer les réseaux de personnages pour résoudre la tâche d'alignement narratif sur trois adaptations du Trône de Fer de George R. R. Martin : les romans originaux, les comics adaptés de ceux-ci et la série télévisée. Nos résultats montrent que les méthodes basées sur les réseaux peuvent être meilleures que celles basées sur le texte, et peuvent être combinées avec ces dernières pour améliorer la performance. Nous mettons aussi en valeur l'importance de réaliser la tâche d'alignement sur des unités narratives commensurables. Dans ces deux études de cas, nous montrons l'intérêt des réseaux dynamiques.