Analyse Automatique des News pour la Compréhension de la Polarisation
Auteur / Autrice : | Evan Dufraisse |
Direction : | Armelle Brun, Julien Tourille |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Soutenance en 2024 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES |
Partenaire(s) de recherche : | Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications |
Equipe de recherche : KIWI | |
Jury : | Président / Présidente : Slim Ouni |
Examinateurs / Examinatrices : Armelle Brun, Pascale Sébillot, Symeon Papadopoulos, Oana Goga, Julien Tourille | |
Rapporteur / Rapporteuse : Pascale Sébillot, Symeon Papadopoulos |
Mots clés
Résumé
Les progrès technologiques dans le domaine des télécommunications ont radicalement changé la manière dont l'information est diffusée et dont le public interagit avec elle. Le paysage médiatique, autrefois dominé par une poignée d'acteurs, est devenu très concurrentiel avec l'avènement d'internet et a entraîné une forte augmentation du nombre de sources. Cette évolution est parfois qualifiée par les spécialistes de « crise de l'information », caractérisée par la fragmentation de l'audience et la personnalisation accrue de la consommation d'informations. Cette nouvelle structuration du paysage informationnel soulève des inquiétudes avec le développement d'autres genres médiatiques comme l'infodivertissement, et l'augmentation de la désinformation et de la polarisation qui posent des défis pour le bon fonctionnement démocratique. La mitigation et la compréhension de ces effets négatifs ne peuvent être envisagées que par une analyse automatisée de la presse, car le recours à une annotation manuelle serait d'un coût prohibitif considérant le flux d'articles journaliers. Les progrès récents dans le domaine du Traitement Automatique du Langage Naturel (TALN), en particulier avec l'avènement des architectures de type transformer, ont permis de développer de nouvelles méthodes pour l'analyse automatique de la presse. Cependant, il reste des défis à relever pour qualifier avec précision les biais et les opinions, pour généraliser ces méthodes à d'autres langues et domaines moins dotés, et pour maintenir l'explicabilité des résultats. Dans cette thèse, nous abordons ces limitations en nous penchant sur trois points clés : le développement d'un framework pour l'analyse fine des opinions, la création d'un jeu de données multilingues pour l'analyse de sentiment ciblée dans les news, et des analyses de paysages médiatiques en différentes langues. Notre framework intègre la reconnaissance d'entités nommées liées à Wikipedia pour fournir une analyse de sentiments enrichie et explicable. Nous présentons un nouveau jeu de données pour la classification de sentiment ciblée à destination de l'actualité politique européenne, qui comprend des phrases traduites alignées et annotées manuellement dans huit langues, ce nouveau jeu de données nous permets d'étudier l'applicabilité des modèles de traduction automatique pour le transfert de l'analyse des sentiments à d'autres langues. Enfin, nous appliquons notre framework pour conduire une analyse de la presse française et de la presse flamande, nous enrichissons cette analyse par l'incorporation de données issues de « ParlGov » qui nous permettent de caractériser les biais de représentation des différents journaux. Cette approche permet non seulement d'améliorer l'explicabilité des résultats, mais présente également un potentiel d'application dans les langues peu dotées et, dans l'ensemble, elle pourrait fournir des informations précieuses pour notre compréhension des problèmes modernes de consommation de l'information, tels que la polarisation et la désinformation.