Évaluation des citations erronées dans les articles scientifiques
Auteur / Autrice : | Qinyue Liu |
Direction : | Cyril Labbé |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/11/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique de Grenoble |
Mots clés
Mots clés libres
Résumé
Dans les articles scientifiques, les citations jouent un rôle essentiel. Elles servent à reconnaître les travaux antérieurs et à situer les travaux en cours dans le contexte des connaissances existantes. Lorsque des désaccords scientifiques surviennent, les citations fournissent aux lecteurs des indices pour comprendre et interpréter l'ouvrage. La plupart du temps, les citations sont considérées comme fidèles dans la mesure où elles reflètent correctement le contenu de l'article cité. Cependant, l'étude de l'exactitude des citations dans différentes disciplines scientifiques révèle un taux d'erreur de 25 à 54 % (Jergas 2015, Siebers 2000, Kristof 1997, Key 1977). Ces erreurs altèrent le contenu original et la signification de l'article cité, pouvant aller de petites inexactitudes à des erreurs majeures. La majorité des travaux existants sur le contenu des citations et l'analyse du contexte de citation se concentrent sur la détermination du sentiment de citation (Liu 2017, Athar 2011), la compréhension de la fonction de citation (Yu 2020, Pride 2019, Bakhti 2018) et l'identification des contextes de citation critiques (Te 2022). Cependant, peu de recherches ont été menées sur l'évaluation automatique de l'exactitude d'une citation (Pavolic 2020, Agarwal 2023). Le doctorant devra explorer cette ligne de recherche en commençant par la construction d'un jeu de données, l'étude et la définition d'une typologie des citations erronées. Une fois cette tâche clairement définie, il devra élaborer un ensemble de données annotées. Ensuite, il devra développer différentes méthodes de traitement des langues permettant de classer automatiquement les citations dont le contexte est considéré comme erroné.