Classification fine de textes polarisés et de propagande issus d’articles d'actualité et de débats politiques
Auteur / Autrice : | Vorakit Vorakitphan |
Direction : | Serena Villata |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 15/12/2021 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Fabien Gandon |
Examinateurs / Examinatrices : Serena Villata, Fabien Gandon, Farah Benamara, Anne Vilnat, Marco Guerini, Laura Alonso Alemany | |
Rapporteur / Rapporteuse : Farah Benamara, Anne Vilnat |
Résumé
La désinformation, dont la propagation s’est accentuée par le biais des médias sociaux, suscite aujourd’hui une réelle menace pour la société. Il existe différents moyens de véhiculer de la désinformation, par exemple par le biais de contenus délibérément manipulés ou fabriqués dans le but de créer des théories conspirationnistes, de rumeurs ou encore de positions et jugements erronés, tels que l’on peut en rencontrer dans des articles d'actualité, discours et débats politiques. L'une des nombreuses formes de désinformation rencontrée en ligne, et certainement l'une des plus dangereuses, est la propagande. Ce type de désinformation, que l’on retrouve notamment en politique, représente une stratégie de communication efficace mais souvent trompeuse utilisée pour promouvoir un certain point de vue auprès du public. La nécessité d'identifier, de classifier et de comprendre efficacement et automatiquement ce type de phénomène devient pressant. Dans cette thèse, j'aborde cette question et je propose une approche de classification fine des textes polarisés et de propagande issus d’articles de presse et de débats politiques. Selon le sujet abordé, le contexte, la source d'information, les antécédents et les préférences constituent un panel de facteurs pouvant influer sur les perceptions de l’auditoire et donc conduire à sa déviation ou polarisation en faveur d’un parti. À partir d’un cas d’utilisation provenant d’un scénario politique, nous proposons d’explorer les impacts d’une telle polarisation par le biais de méthodes issues de l’analyse de sentiment basée sur des aspects. L’objectif étant de vérifier dans quelle mesure ces méthodes peuvent permettre d’obtenir des informations sur les messages politiques postés sur les médias sociaux. Plus particulièrement, la thèse traite de la conception et de l'évaluation d'un certain nombre de techniques d'extraction des principales caractéristiques des textes de propagande dans le domaine du Traitement Automatique du Langage Naturel (TALN). L'analyse de sentiment, les techniques de persuasion, la simplicité des messages et l'argumentation y sont notamment proposées et étudiées en profondeur. Les résultats de cette thèse montrent que ces caractéristiques peuvent capturer des propriétés particulières permettant de caractériser la propagande dans les textes. D’autre part, ces caractéristiques sont employées dans le cadre de la conception et l'implémentation d'une architecture neuronale ayant pour vocation à détecter et classifier les techniques de propagande à grain fin. Le travail proposé dans cette thèse va au-delà de l'état de l'art des systèmes actuels de détection et de classification de la propagande à grain fin. En effet, plusieurs approches d'apprentissage automatique, allant de la régression logistique à des architectures neuronales récentes, ont été testées sur des jeux de données standard de détection de la propagande. En conséquence, un pipeline complet de détection et de classification de la propagande est présenté. La tâche de détection des extraits de textes de propagande a obtenu un score F1 de 0,71, et l'architecture basée sur les transformateurs a obtenu une moyenne de 0,67 pour la tâche de classification des techniques de propagande, surpassant ainsi les systèmes de pointe. Ce pipeline est démontré avec un outil de preuve de concept appelé PROTECT. Enfin, comme dernière contribution de cette thèse, j'ai participé à la création d'une nouvelle ressource linguistique annotée. Composée de textes issus des débats politiques des campagnes présidentielles américaines de 1960 à 2016, cette ressource est annotée avec 6 types de techniques de propagande qui se décomposent en 14 sous-catégories de propagande. L'ensemble de données que j'ai construit contient 1666 instances de propagande.