Utiliser des graphes de connaissances pour détecter et expliquer la désinformation sur le Web
Auteur / Autrice : | Youri Peskine |
Direction : | Paolo Papotti |
Type : | Projet de thèse |
Discipline(s) : | Sciences de l'ingénieur |
Date : | Inscription en doctorat le Soutenance le 28/03/2025 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Institut EURECOM |
Equipe de recherche : Data Science | |
Jury : | Président / Présidente : Jean-Luc Dugelay |
Examinateurs / Examinatrices : Kalina Bontcheva, Serena Villata, Mehwish Alam, Raphaël Troncy, Paolo Papotti | |
Rapporteurs / Rapporteuses : Kalina Bontcheva, Serena Villata |
Mots clés
Mots clés libres
Résumé
La désinformation en ligne est un problème majeur dans la société actuelle, car le flux d'informations partagées ne cesse d'augmenter. La désinformation a des répercussions sur des sujets tels que la santé (l'« infodémie » liée à la COVID-19), la politique (élections américaines, Brexit) ou encore l'environnement (déni du changement climatique). Bien qu'il existe des initiatives dédiées à la vérification des faits, ces dernières rencontrent des défis complexes. La désinformation est facile à créer et se propage rapidement, alors que la vérification des faits prend du temps et ne s'adapte pas bien à grande échelle. Souvent, les vérificateurs de faits doivent concentrer leurs efforts sur les affirmations les plus virales. Dans notre travail, nous présentons des recherches visant à aider les vérificateurs de faits à mieux analyser les contenus en ligne. Nous proposons tout d'abord des approches automatiques pour extraire plusieurs caractéristiques textuelles à partir de publications sur les réseaux sociaux. Nous détectons les théories du complot liées à la COVID-19 et les techniques de persuasion dans des tweets et des mèmes en utilisant des modèles basés sur BERT, atteignant des résultats de l'état de l'art. Nous identifions également les émotions, les sentiments et les orientations politiques dans les postes sur les réseaux sociaux, ce qui permet une analyse approfondie du discours social autour de la COVID-19. Nous étudions également les « tropes », des dispositifs facilement reconnaissables utilisés dans les récits pour véhiculer un thème ou une idée spécifique. Nous annotons des tweets en fonction de neuf tropes différents autour des sujets de la vaccination et de l'immigration, et nous proposons des modèles automatiques pour les détecter. Pour comprendre comment toutes ces caractéristiques textuelles sont liées entre elles, nous effectuons une analyse de corrélation entre ces dernières. Avec l'émergence des grands modèles de langage dans la recherche en traitement automatique des langues (TAL), nous analysons leur capacité à détecter les théories du complot et les techniques de persuasion, tout en explorant l'impact des définitions des classes dans la performance des annotations. Nous constatons que de meilleures définitions conduisent à de meilleurs résultats et proposons une méthode pour générer des définitions performantes. Analyser la relation entre la désinformation, la vérification des faits et l'écosystème de l'information est essentiel pour comprendre la propagation de la désinformation. Ces recherches s'appuient sur diverses sources de données, telles que des postes sur les réseaux sociaux, des articles de presse ou des affirmations, avec différentes métadonnées associées. Nous présentons Cimple KG, un graphe de connaissances public et continuellement mis à jour, dédié aux contenus liés à la désinformation. Cimple KG relie différents ensembles de données statiques publiés auparavant sur la désinformation à des vérifications quotidiennes d'affirmations provenant d'organisations de vérification des faits fiables, et les enrichit avec des informations supplémentaires, telles que des entités nommées et des caractéristiques textuelles. Enfin, nous explorons de nouvelles mesures de similarité textuelle, en nous concentrant sur les applications de vérification des faits. Notamment, nous utilisons des récits, des entités, et comparons des documents de différentes longueurs. En résumé, notre travail vise à utiliser des outils de traitement automatique des langues et des graphes de connaissances pour aider les vérificateurs de faits dans leur tâche. Nous présentons de nombreuses approches pour détecter des caractéristiques textuelles, proposons diverses nouvelles mesures de similarité et mettons à disposition Cimple KG, une ressource précieuse pour soutenir la recherche sur la désinformation.