Thèse en cours

Analyse Automatique des News pour la Compréhension de la Polarisation

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu en 2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Evan Dufraisse
Direction : Armelle BrunJulien Tourille
Type : Projet de thèse
Discipline(s) : Informatique
Date : Soutenance en 2024
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Partenaire(s) de recherche : Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Equipe de recherche : KIWI
Jury : Président / Présidente : Slim Ouni
Examinateurs / Examinatrices : Armelle Brun, Pascale Sébillot, Symeon Papadopoulos, Oana Goga, Julien Tourille
Rapporteur / Rapporteuse : Pascale Sébillot, Symeon Papadopoulos

Résumé

FR  |  
EN

Les progrès technologiques dans le domaine des télécommunications ont radicalement changé la manière dont l'information est diffusée et dont le public interagit avec elle. Le paysage médiatique, autrefois dominé par une poignée d'acteurs, est devenu très concurrentiel avec l'avènement d'internet et a entraîné une forte augmentation du nombre de sources. Cette évolution est parfois qualifiée par les spécialistes de « crise de l'information », caractérisée par la fragmentation de l'audience et la personnalisation accrue de la consommation d'informations. Cette nouvelle structuration du paysage informationnel soulève des inquiétudes avec le développement d'autres genres médiatiques comme l'infodivertissement, et l'augmentation de la désinformation et de la polarisation qui posent des défis pour le bon fonctionnement démocratique. La mitigation et la compréhension de ces effets négatifs ne peuvent être envisagées que par une analyse automatisée de la presse, car le recours à une annotation manuelle serait d'un coût prohibitif considérant le flux d'articles journaliers. Les progrès récents dans le domaine du Traitement Automatique du Langage Naturel (TALN), en particulier avec l'avènement des architectures de type transformer, ont permis de développer de nouvelles méthodes pour l'analyse automatique de la presse. Cependant, il reste des défis à relever pour qualifier avec précision les biais et les opinions, pour généraliser ces méthodes à d'autres langues et domaines moins dotés, et pour maintenir l'explicabilité des résultats. Dans cette thèse, nous abordons ces limitations en nous penchant sur trois points clés : le développement d'un framework pour l'analyse fine des opinions, la création d'un jeu de données multilingues pour l'analyse de sentiment ciblée dans les news, et des analyses de paysages médiatiques en différentes langues. Notre framework intègre la reconnaissance d'entités nommées liées à Wikipedia pour fournir une analyse de sentiments enrichie et explicable. Nous présentons un nouveau jeu de données pour la classification de sentiment ciblée à destination de l'actualité politique européenne, qui comprend des phrases traduites alignées et annotées manuellement dans huit langues, ce nouveau jeu de données nous permets d'étudier l'applicabilité des modèles de traduction automatique pour le transfert de l'analyse des sentiments à d'autres langues. Enfin, nous appliquons notre framework pour conduire une analyse de la presse française et de la presse flamande, nous enrichissons cette analyse par l'incorporation de données issues de « ParlGov » qui nous permettent de caractériser les biais de représentation des différents journaux. Cette approche permet non seulement d'améliorer l'explicabilité des résultats, mais présente également un potentiel d'application dans les langues peu dotées et, dans l'ensemble, elle pourrait fournir des informations précieuses pour notre compréhension des problèmes modernes de consommation de l'information, tels que la polarisation et la désinformation.