Détection des fake news dans les Réseaux Sociaux : Modéliser, Simuler et Prévenir
Auteur / Autrice : | Quy Thanh Le |
Direction : | Maamar El Amine Hamri |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 10/11/2023 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | Ecole Doctorale Mathématiques et Informatique de Marseille |
Partenaire(s) de recherche : | Laboratoire : LIS Laboratoire d'Informatique et Systèmes |
Mots clés
Résumé
La dissémination de fausses informations (en anglais, fake news) n'a rien d'un phénomène nouveau, elle est observée depuis l'antiquité. Les fausses nouvelles, qu'elles proviennent de sources individuelles ou d'institutions comme les médias ou les gouvernements, visent généralement à tromper pour des objectifs variés tels que la déstabilisation, le profit financier ou la manipulation électorale. Ces dernières années, cette tendance a fortement augmenté, notamment en raison de l'essor des réseaux sociaux qui permettent la diffusion rapide et massive d'informations non vérifiées. Même les utilisateurs experts des réseaux sociaux peinent à repérer les fausses informations, car elles sont conçues pour paraître crédibles. De nos jours, nous assistons même à la création de fausses vidéos réalisées avec une qualité visuelle proche de celle du cinéma, appelées deep fakes, ce qui rend la tâche de détection de ce type de contenu extrêmement ardue. L'un des objectifs majeurs est de parvenir à détecter automatiquement ces contenus générés par des utilisateurs dès que possible, afin d'éviter leur propagation ou, si nécessaire, de les rectifier. Des événements d'envergure internationale, tels que le Fake News Challenge 1 ou le Fake News Detection Challenge de KDD 2, ont mobilisé la communauté scientifique pour faire progresser la recherché dans le domaine de la détection automatique des fausses informations. L'étendue du travail à réaliser pour la détection automatique des fausses nouvelles, ainsi que sa rapide évolution, ont suscité la publication de nombreuses études scientifiques, ces dernières années, en vue de synthétiser les avancées dans ce domaine. Plusieurs domaines de recherche contribuent à détecter les fausses nouvelles, notamment le traitement automatique du langage naturel, l'extraction de caractéristiques textuelles, la théorie des graphes et les réseaux complexes, ainsi que l'analyse et la manipulation d'images. Les approches qui combinent différentes sources d'informations sont également à l'étude. Les caractéristiques qui sont extraites pour détecter les fausses nouvelles sont multiples et variées, allant du contenu linguistique tel que la représentation des mots, les mots-clés liés aux sentiments ou aux émotions, les descripteurs de la parole et de la syntaxe, etc., aux signaux visuels tels que la cohérence de l'image ou les mesures de similarité. Elles peuvent également porter sur les réseaux d'information, tels que les graphes d'interaction, les liens d'amitié entre les utilisateurs, la chronologie (timeline), les traces sociales ou autres propriétés telles que la popularité, la réputation et la fraîcheur. En outre, certaines approches sont souvent mentionnées, comme dans, où les méthodes sont classées selon qu'elles soient basées sur les connaissances, qu'elles dépendent de la propagation de l'information au sein d'un réseau, qu'elles vérifient l'information dans des sources externes (fact-checking), ou qu'elles analysent le style d'écriture de l'information. Juger une nouvelle comme étant fausse et la classer par la suite dans la catégorie des fake news est un travail qui nécessite des outils assez conséquents, sans faille et démontrables. Une des solutions peut être dans l'emploi des techniques de preuve pour justifier et argumenter une telle décision. Il faudra alors formaliser une description qui reste toutefois informelle par une formelle. Souvent une information tente de décrire un récit dans un contexte particulier, il sera alors possible d'identifier un ensemble d'événements pertinents et assez représentatif du récit considéré. Afin de construire un tel ensemble d'événements de la manière la plus rigoureuse possible, il convient évidemment d'utiliser plusieurs techniques différentes telles que TAL, apprentissage automatique, etc. Une fois cet ensemble est défini, il convient d'appliquer une technique de preuve pour justifier et argumenter la présence de chaque événement. Il sera également possible de formuler des propriétés à base de tels événements représentatifs de l'information et d'affirmer ou infirmer cette dernière. D'autre part, cette information à étudier doit être placée dans son environnement (contexte) pour être analysée et évaluée correctement. Dans ce sens, la simulation constituerait un cadre idéal pour analyser à la fois, l'évolution de l'information à étudier et de son environnement. A son tour, la modélisation de l'environnement nécessitera une attention particulière dû à sa complexité spatiale et temporelle. La théorie des systèmes et particulier DEVS (Discrete Event System specification) offre un cadre idéal d'une part pour modéliser le contexte et simuler son évolution suite à l'occurrence d'événements qui peuvent représenter des fake news. Il sera également possible si la fake news s'est avérée, de préparer des arguments voire des actions pour démonter de telles nouvelles par la sensibilisation et la prévention des populations ciblées. Enfin, la complexité des réseaux sociaux qui constituent un terrain de diffusion par excellence des fake news où différentes tranches d'âge coexistent, nécessitera des moyens de calcul colossaux. En effet, ces moyens sont indispensables pour exécuter de telles simulations à grande échelle. La simulation distribuée qui permet de dispatcher un modèle sur plusieurs machines (serveurs) tout en garantissant la causalité entre les événements reçus et émis par les différents sous-modèles peut être une solution satisfaisante mais face à la taille des données gigantesque et les calculs intensifs à effectuer, il faudra s'appuyer également sur les techniques de calcul haute performance (High Performance Computing) pour accélérer ces simulations afin de pouvoir prendre rapidement les décisions qui s'imposent.