Thèse soutenue

Détection d'opinions, d'acteurs-clés et de communautés thématiques dans les médias sociaux

FR  |  
EN
Auteur / Autrice : Guillaume Gadek
Direction : Alexandre Pauchet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 22/11/2018
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : établissement de préparation : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....)
Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Jury : Président / Présidente : Florence Sèdes
Examinateurs / Examinatrices : Alexandre Pauchet, Cédric Du Mouza, Bénédicte Le Grand, Laurent Vercouter, Rushed Kanawati
Rapporteurs / Rapporteuses : Cédric Du Mouza, Bénédicte Le Grand

Résumé

FR  |  
EN

Les réseaux sociaux numériques ont pris une place prépondérante dans l'espace informationnel, et sont souvent utilisés pour la publicité, le suivi de réputation, la propagande et même la manipulation, que ce soit par des individus, des entreprises ou des états. Alors que la quantité d'information rend difficile son exploitation par des humains, le besoin reste entier d'analyser un réseau social numérique : il faut dégager des tendances à partir des messages postés dont notamment les opinions échangées, qualifier les comportements des utilisateurs, et identifier les structures sociales émergentes.Pour résoudre ce problème, nous proposons un système d'analyse en trois niveaux. Tout d'abord, l'analyse du message vise à en déterminer l'opinion. Ensuite, la caractérisation et l'évaluation des comptes utilisateurs est réalisée grâce à une étape de profilage comportemental et à l'étude de leur importance et de leur position dans des graphes sociaux, dans lesquels nous combinons les mesures topologiques d'importance des noeuds dans un graphe avec les statistiques d'engagement, par exemple en nombre d'abonnés. Enfin, le système procède à la détection et à l'évaluation de communautés d'utilisateurs, pour lesquelles nous introduisons des scores de cohésion thématique qui complètent les mesures topologiques classiques de qualité structurelle des communautés détectées. Nous appliquons ce système d'analyse sur deux corpus provenant de deux médias sociaux différents : le premier est constitué de messages publiés sur Twitter, représentant toutes les activités réalisées par 5 000 comptes liés entre eux sur une longue période. Le second provient d'un réseau social basé sur TOR, nommé Galaxy2. Nous évaluons la pertinence de notre système sur ces deux jeux de données, montrant la complémentarité des outils de caractérisation des comptes utilisateurs (influence, comportement, rôle) et des communautés de comptes (force d'interaction, cohésion thématique), qui enrichissent l'exploitation du graphe social par les éléments issus des contenus textuels échangés.